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标书 展示 了 机 器 学 习 中 核心 的 算法 和 理论 .并 阐明 了 算法 的 运行 过 程 。 本 书 绕 台 了 并 
EERE. Hut., ATHE., A., mate., EPZ, UWR, HR HAt 
ASH, FROM. RAPS ee. BT PESTS PLS 
本 科 生 、 研 究 生 教 材 ， 也 可 作为 相关 领域 研究 人 员 、 教 师 的 参考 节 . 

‘Iom M Mitchell: Machine Learning (ISBN 0-07-115467-1), 

Copynghl ©1997 by The McGraw-Hill Companies, Inc. 

Original language published by The Me(raw-Hill Companies, Inc. All rights reserved. No 
pario thes pubhieation may be reproduced or distributed in any means, er stored in a database or 
yetneval system, without the poor written permission of the publisher. 

: Simphified Chinese tranalation edition jointly published by MeGraw-Hili Education { Asia) 
€o. and China Machine Press. l 

本 书 中 文 简体 字 翻 译 版 由 机 械 工 业 出 版 社 和 美国 麦 格 劳 - 希 尔 教育 CEW) 出 版 公司 
合作 出 版 。 未 经 出 版 者 预先 书面 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 的 任何 部 分 ， 

本 书 封面 贴 站 McGraw-Hill 公司 防雪 标签 ， 无 标签 者 不 得 销售 . 
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“机 咽 学 习 ”-~ 般 被 定义 为 一 个 系统 自我 改进 的 过 程 ， 但 仅 仪 从 这 个 定义 来 理解 和 实现 
机 弟 和 学: 习 十 困难 的 。 从 最 初 的 基于 神经 元 模型 以 及 下 数 通 近 论 的 方法 研究 ， 到 以 符号 演算 为 
基础 的 规则 学 习 和 决策 树 学 习 的 产生 ， 和 之 后 的 认 知 心理 学 中 归纳 、 解 释 、 类 比 等 概念 的 引 
和信， 至 最 新 的 计算 学 习 理 论 和 统计 学 习 的 兴起 (当然 还 包括 基于 马尔 可 夫 过 程 的 增强 学 习 )， 
机 器 学 习 一 直 都 在 相关 学 科 的 实践 应 用 中 起 着 主导 必用。 研究 人 员 们 借鉴 了 各 个 学 科 的 忠 想 
来 发 展 机 请 学 习 ， 但 关于 机 器 学 习 问 题 的 实质 究竟 是 什么 尚 无 定论 。 不 同 的 机 器 学 妆 方 法 也 
各 有 优 缺 点 ， 只 在 其 适用 的 领域 内 才 有 良好 的 效果 。 因 此 ， 以 校 举 的 方法 描述 机 器 学 习 中 的 
各 个 理论 和 算法 可 能 是 最 合适 的 途径 。 

lah) 一 书 正 是 以 这 种 途径 米 介 绍 机 器 学 习 的 。 其 主要 涵盖 了 目前 机 器 学 习 中 各 
种 最 实用 的 理论 和 算法 ， 包 括 概念 学 习 、 决 策 树 、 神 经 网 络 、 贝 叶 斯 学 习 、 基 于 实例 的 学 
习 、 中 传 算 法 、 规 由 学 习 、 基 于 解释 的 学 习 和 增强 学 习 等 ， 对 每 一 个 主题 ， 作 者 不 仅 进 行 了 
十 分 详 鲜 和 直观 的 解释 ， 述 给 出 了 实用 的 算法 流程 。 此 外 ， 书 中 还 包括 一 章 对 学 习 算 法 的 精 
度 进 行 实验 评估 的 内 容 。 书 后 的 习题 和 和 参考 文献 提供 了 进一步 思考 相关 问题 的 线索 ， 在 网 下 
http: //www-2. cs. emu. edu” ~ tom/mlbook. html 上 志 再 以 找到 关于 该 书 的 讲演 约 灯 片 、 
例子 程序 和 数据 等 信息 。 在 卡 内 基 梅 隆 等 许多 大 学 ， 本 书 都 被 作为 机 器 学 习 课 程 的 教科 。 

BAYER Tom M. Mitchell 在 机 器 学 习 领 域 吝 有 戌 名 。 他 是 卡 内 基 梅 隆 大 学 的 教授 ， 
目前 在 WhizBang! 实验 室 担 任 册 主席 和 首席 科学 家 。 他 还 是 美国 人 工 智能 协会 (AAAI 的 
主席 ， 并 且 是 《机 器 学 习 》 杂志 和 国际 机 器 学 习 年 度 会 议 《ICML) 的 创始 人 。 

笔者 六 翻译 过 程 中 力求 忠于 原著 。 由 于 本 书 涉 及 了 多 个 学 科 的 内 容 ， 因 此 其 中 许多 的 专 
业 术 语 挟 量 苯 御 其 所 在 学 科 的 标准 去 法 ， 并 往 有 阿 能 引起 歧义 和 剖 罕 之 处 做 本 通 当 幸 整 。 问 
时 ， 我 们 在 专业 术语 第 一 次 出 现 的 地 方 注 上 了 更 文 原 交 ， 以 方便 读者 的 对 照 理 解 ， 

全 书 的 翻译 由 曾 华军 和 张 银 牵 合作 完成 ， 并 得 到 了 周志 华 、 座 中、 最 风 、 钱 芳 、 孙 上 蚁 
HH. RH. BR. MRE KSA SRS. HACER, BPRRAR ES 
处 在 所 难免 ， 奶 请 读者 批评 指正 。 
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机 器 学 习 这 门 学 科 所 关注 的 问题 是 : 计算 机 程序 如 何 随 着 经 验 积 累 自 动 提 毅 人 性能， 近年 
来 ， 机 医学 习 被 成 功 地 应 用 于 很 多 领域 ， 从 检测 信用 卡 交 易 欺 诈 的 数据 控 括 程序 ， 到 获取 用 
亡 阐 读 兴 趣 的 信息 过 滤 系 统 ， 再 到 能 在 高 速 公 路 上 日 动 行驶 的 汽车 。 同 时 ， 这 个 学 科 的 基础 
理论 和 算法 也 有 了 重大 进展 。 

这 本 教材 的 上 且 标 是 展现 机 髓 学 习 中 核心 的 算法 和 理论 。 机 器 学 习 从 很 多 学 税 吸 收 了 上 成果 
和 概念 ， 包 括 统计 学 、 人 工 智能 、 背 学 、 信 息 论 、 生 物 学 、 认 知 科学 、 计 算 复杂 性 和 控制 论 
等 。 笔 者 相信 ， 研 究 机 器 学 习 的 最 佳 途 征 是 从 这 些 学 科 的 观点 看 待机 器 学 习 ， 并 日 以 此 来 理 
解 问题 的 背景 、 算 法 以 及 其 中 隆 会 的 很 定 。 这 些 在 以 往 很 难 做 到 ， 因 为 在 这 一 领域 缺少 包容 
广泛 的 原始 资料 ， 本 书 的 主要 目的 就 是 提供 这 样 的 一 份 资 料 。 

由 于 素材 的 多 学 科 性 ， 本 书 不 要 求 读 者 具有 相应 的 知识 背景 ， 而 是 在 必要 时 介绍 其 他 -- 
些 学 科 的 基本 概念 ， 如 统计 学 、 人 工 智能 、 信 息 论 等 。 介 绍 的 重点 是 与 机 器 学 习 关系 最 密切 
的 那些 概念 。 本 书 可 以 作为 计算 机 科学 与 工程 、 统 计 学 和 社会 科学 等 专业 的 大 学 生 或 研究 生 
的 教材 ， 也 可 作为 软件 研究 人 员 或 从 业 人 员 的 参考 换 料 。 指 导 本 书写 作 的 两 条 原则 为 : 第 
一 ， 它 是 人 往 校 大 学 生 可 以 理解 的 ; 第 ， 七 应 该 包 舍 我 希望 我 日 己 的 博士 生 在 开始 他 们 的 机 
fre J A Se HAZ 

指导 本 书写 作 的 第 三 条 原则 是 : 它 应 该 体现 理论 和 实践 间 的 均衡 。 机 器 学 习 理 论 致力 于 
回答 这 样 的 问题 “学 习性 能 是 怎样 随 着 给 定 的 训练 样 例 的 数量 而 变化 的 ?” 和 “对 于 各 种 不 
同类 莉 的 学 习 任 务 ， 哪 个 学 习 算 法 最 适合 ?” 利 用 来 自 统 计 学 、 计 算 复 淋 狂 和 页 叶 斯 分 析 的 
理论 成 果 ， 这 本 书 讨 论 了 这 一 类 理论 问题 。 同 时 本 书 也 涵 族 很 多 实 贱 方 面 的 内 容 : 介绍 了 这 
一 领域 的 主要 算法 ， 闸 明了 算法 的 运行 过 程 。 其 中 一 些 供 法 的 实现 和 数据 可 以 在 内 符 网 上 遂 
过 网 址 http: //www. cs. emu. edu/~tom/mlbook. html 得 到 ， 包 括 用 于 人 有 验 识 别 的 神经 
网 络 的 源 代码 和 数据 、 用 于 信贷 分 析 的 决策 树 学 习 的 源 代码 和 数据 及 分 析 文 本 文档 的 贝 叶 斯 
分 类 器 的 源 代码 和 数据 。 我 很 感谢 那些 帮助 我 创建 这 些 在 线 资源 的 同事 ， 他 们 是 : Jason 
Rennie, Paul Hsiung, Jeff Shufelt, Matt Glickman, Scott Davies, Joseph O’ Sullivan, Ken 
Lang, Andrew McCallum 和 Thorsten Joachims, 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 董 断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
Eth. ThE. FERRER, ARPA SAP RRR RES HAR 
EBT AS PFS He UIE AF PREY St ART Pe A KR, BPE RBS BE, AE 
A OFM, AA AOR, eS RAL, RAR TRME. HAHAS 
因 年 月 的 流逝 而 减退 。 

近年 ， 和 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切、 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
住 其 计算 机 科学 发 展 的 几 十 年 间 积 深 的 经 上 邮 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 -AE 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 Ë 
设 真 正 的 世界 - 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华 童 图 文 信息 有 限 公 司 较 早 意 识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 始 ， 
华章 公司 就 将 工作 重点 放 在 了 各 选 、 移 译 国 外 优秀 教材 上 上。 经 过 几 年 的 厅 峥 努力 ， 戈 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 律 六 了 了 
良好 的 合作 关系 ， 从 它 们 现 有 的 数 百 种 教材 中 王选 出 Tanenbaum， Stroustrup, Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 从 BR” APR, GA 
窜 太 诬 藏 。 大 埋 石 纹理 的 封面 ， 也 止 体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 占 力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 阁 劳 匣 地 担任 了 翻 详 和 审 校 的 工作 ; 和 而 新书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 ， 馆 今 ,“ 计 算 机 科学 其 韦 ” 已 经 出 版 了 和 近 百 个 
申 种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 H., H 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国 短 计算 机 教材 的 需求 和 所 
用 都 步 人 -个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 太 引 进 教材 的 石 度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教 村 : 针对 本 科 生 的 核心 课 穆 ， 剔 热 外 版 戎 华 而 成 “国外 经 典 教 
材 ” 系 列 ; 对 影印 版 的 教材 ， 则 单独 开辟 出 “经 典 原 版 书库 ”; EMER RBA SY Wl eS 
的 “计算 机 科学 丛书 ”还 将 保持 原来 的 风格 ， 继 续 出 版 新 的 品种 。 为 了 保证 这 三 大 外 BAIER 
感性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 们 服务 ， 华 章 公 司 聘请 了 中 国 科 学 院 、 北 京 大 字 、 清 
华 太 学 、 国 防 科 技 大 学 、 复 旦 大 学 、 上 海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大学 、 
了 哈 尔 洗 工业 大 学 、 西 安 交 通天 学 、 中 国人 民 太 学、 北京 航空 航 庆 大 学 、 北京 邮电 大 学 、 中 出 
大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 备 
点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 巾 
意见 和 出 版 监督 。 
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“国外 经 典 教材 ”是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 本 科教 
学 度量 计 造 的 。 在 广泛 地 征求 并 伍 取 从 书 的 “次 家 指导 委员 会 ”的 意见 后 ,我 们 最 终 选 定 T 了 
这 20 多 种 篇 蚁 内 容 适 度 、 讲 解 革 辟 人 里 的 教材 ， 甚 中 的 大 部 分 已 经 被 M.I.T 、8tanford U.C. 
Berkley 、C.M.U. 等 世界 名 牌 大 学 采用 。 从 书 不 仪 泗 盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 
算 机 体系 结构 、 数 据 库 、 编 译 原 理 、 软 件 土 程 、 图 形 学 、 通 信 与 网 络 、 离 散 数 学 等 国内 大 学 
计算 机 专业 普遍 开设 的 核心 课程 ， 而 且 各 县 特色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历 三 十 
年 而 不 萎 、 有 的 已 被 全 世界 的 几 百 所 高 校 采 用 。 在 这 些 贺 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 污 
者 必 将 在 计算 机 科学 的 宫 三 中 由 登 堂 而 人 室 ， 

权威 的 作者 、 经 典 的 教材 、 一 - 流 的 详 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ,但 我 们 的 自 标 是 尽善尽美 ,而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 于 指正 ， 我 们 的 联系 方法 如 下 : 


Hi ARIE: hzedu@hzbook.com 

联系 电话 : (010) 68995265 

联系 地 址 :北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 ，100037 
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Sie Sl 


AMT HRT, AT Aa ERE AE BE, SOR TR PETES A 
机 制 , 即 怎样 使 它们 根据 经 验 来 自动 提高 ,那么 影响 将 是 空前 的 。 想 像 一 下 ,在 未 来 ,计算 机 能 从 医 
疗 记录 中 学 习 , 获 取 治 疗 新 疾病 最 有 效 的 方法 ;住宅 管理 系统 分 析 住 户 的 用 电 柳 式 ,以 降低 能 源 消 
耗 ; 个 人 软件 助理 跟踪 用 户 的 兴趣 ,并 为 其 选择 最 感 兴趣 的 在 线 早 间 新 闻 。 对 计算 机 学 习 的 成 功 理 
解 将 开辟 出 许多 全 新 的 应 用 领域 ,并 使 其 计算 能 力 和 可 定制 性 上 升 到 新 的 层次 。 同 时 ,透彻 理解 机 
器 学 习 的 信息 处 理 算 法 ,也 会 有 助 于 更 好 地 理解 人 类 的 学 习 能 力 ( 及 缺陷 )。 

目前 ,我 们 还 不 知道 怎样 使 计算 机 具备 和 人 类 一 样 强大 的 学 习 能 力 。 然 而 ，- 些 针对 特定 
学 习 任 务 的 算法 已 经 产生 。 关 于 学 习 的 理论 认识 已 开始 逐步 形成 。 大 们 开发 出 很 多 实 距 尾 的 
计算 机 程序 来 实现 不 同类 型 的 学 习 ,一 些 商 业 化 的 应 用 也 已 经 出 现 。 例 如 ,对 于 语音 识别 这 样 
的 课题 ES Ak ,基于 机 器 学 习 的 算法 明显 胜 过 其 他 的 方法 。 在 数据 控 气 领域, 机 器 学 习 算 
法 理所当然 地 被 用 来 从 包含 设备 维护 记录 .借贷 申请 .金融 交易 .医疗 记录 等 此 类 信息 的 大 型 
数据 库 中 发 现 有 价值 的 信息 。 随 着 对 计算 机 认识 的 日 益 成 熟 , 机 器 学 习 必 将 在 计算 机 科学 利 
技术 中 扮演 越 来 越 重要 的 角色 1 

我 们 可 以 通过 一 些 专项 成 果 看 到 机 器 学 习 这 门 技术 的 现状 :计算 机 已 经 能 够 成 功 地 识别 
人 类 的 讲话 (有 aibel 1989, Lee 1989) ; 预测 肺炎 患者 的 康复 率 (Cooper et al. 1997); MIAA E 
的 欺诈 ;在 高 速 公 路 上 自动 驾驶 汽车 {Pomerleau 1989) ;以 接近 人 类 世界 冠军 的 水 平 对 弈 时 立 
双 陆 棋 扫 这 样 的 游戏 (Tesauro 1992，1995)。 已 有 很 多 理论 成 果 能 够 对 训练 样 例 数量 .假设 空 
间 大 小 和 已 知 假设 中 的 预期 错误 这 三 者 间 的 基本 关系 进行 刻 焉 我们 正 开 始 效 取信 类 和 动物 
学 习 的 原始 模 型 ,用 以 理解 它们 各 计算 机 的 学 习 算 法 间 的 关系 (例如 ,Laird et al. t986, Ander- 
son 1991 ,Oin et al. 1992,Chi & Bassock 1989, Ahn & Brewer 1993), Æl EAT ‘FP. Lit 
EMA BR A ARO AR TS ADR DEE, SLR Ly, 
用 被 归纳 在 表 1-1 FP. Langley & Simon(1995) 以 及 Rumelhart et al. (1994) E Æ T HAr AJ 
的 一 些 其 他 应 用 。 

1-1 析 器 学 习 的 一 些 成 功 应 用 


全 学习 识别 人 类 的 讲话 

所 有 最 惑 功 的 语音 识别 系统 都 使 用 了 某 种 形式 的 横峰 学 习 技 术 。 例 如 ,SPHINX 系统 (参见 Lee 1989) Hf FT 
对 特定 讲话 者 学 习 语 音 识 别 征 略 ,从 检测 到 的 语音 信号 中 识别 出 基本 的 音素 (phoneme) 和 和 单词。 杭 经 网 络 学 避 
方法 (例如 Waibel et al. 1989) Af 32K A] RAN (hidden Markoy modal) 学 习 方 法 {参见 Lee 1989) ETE IK Hh 
系统 中 也 非常 有 效 。 它 们 可 以 让 系统 自动 适应 不 同 的 讲话 者 .词汇 SRR PRR SS. BEL 
在 很 名 信号 解 琶 课题 中 也 有 应 用 洪 力 


— — --- 
be = 








O 种 业 似 飞行 棋 的 游戏 ,双方 各 持 十 五 子 , 通 过 掷 股子 来 决定 棋子 移动 的 步 数 。 HAt 
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志学 悦 站 各 车辆 
机 器 学 习 方 法 已 经 用 于 训练 计算 机 控制 的 车 辆 .使 其 在 各 种 类 型 的 道路 上 正确 行 晶 。 例 如 ,ALYIRN 系 
统 ( Pomerleau 1989) 马 经 能 利用 它 学 会 的 策略 独 日 在 高 速 会 路 的 其 他 车 辆 之 间 栖 驰 , 以 各 英里 的 时 束 共 行 训 
了 双 英 里 ， 柴 侧 的 技术 可 能 在 很 才 基 于 人 忧 感 器 的 担 制 问题 中 得 色 应 用 
名 学习 分 类 新 的 天 六 结构 
机 器 学 习 方 法 已 经 被 用 于 从 各 种 大 规模 的 数据 库 中 发 现 隐藏 的 .- 般 规律 ， 例 如 ,也 策 机 学 习 算 法 已 经 被 
美国 国 繁 航空 和 航天 局 (NASA)? 用 来 分 业 天 体 , 这 些 天 体 来 日 第 一 幅 沼 马 天 文 台 的 太空 观察 结果 (Fayyad et al. 
1995)。 这 一 系统 现在 被 用 于 自动 分 类 太空 观察 中 的 所 有 天 蛋 ,其 中 包含 了 3T 字 节 的 图 像 数据 
e 学 可以 二 界 级 的 水 平 对 奔 西 洋 尿 陆 棋 
最 成 功 的 博 凑 类 {如 西洋 双 陆 典 } 计 算 机 程序 起 茜 于 机 器 学 导 算 法 的 。 例 如 ,世界 最 好 的 西洋 双 陆 棋 程 序 
TD-GAMMON( Tesauro 1992，1995) 是 通过 -- 百 万 次 以 上 与 自己 对 弈 来 学 习 其 策 路 的 ,现在 它 的 水 平 能 与 人 类 
的 世界 夺 军 相 比 。 类 机 的 技术 已 被 应 用 于 许多 实际 问题 ,在 这 些 问题 中 ,都 需要 高 效 地 搜索 庞大 的 搜索 空间 


本 书 针对 机 器 学 习 这 个 领域 ,描述 了 多 种 学 习 范 型 .算法 .理论 以 及 应 用 。 机 器 学 习 从 本 
质 上 讲 是 一 个 多 学 科 的 领域 。 它 吸取 了 人 工 智能 ,概率 统计 、 计 算 复 杂 性 理论 ,控制 论 \ 信 息 
论 ,哲学 . 牛 理学 .神经 生物 学 等 学 科 的 成 打 。 表 1-2 归纳 了 来 自 这 些 学 科 的 影响 机 器 学 习 的 
关键 思想 。 本 书 的 素材 基于 不 同学 科 的 成 果 , 然 而 ,读者 不 必 精 通 每 一 个 学 科 。 来 自 这 些 学 科 
的 关键 理论 将 使 用 非 专 业 的 词汇 讲解 ,其 中 不 熟悉 的 术语 和 概念 会 在 必要 时 加 以 介绍 。 


囊 1-2 一些 学 科 和 它们 对 机 希 学 习 的 影响 


eA THR 
SOUREHASA me. PARRA HELE. FARRER ANS. AAA H RA All 
RS He — ES | SY 
e AK 
EAM OR. FORRES. RPA 
o 计算 复 区 性 理论 
不 同学 习 尾 务 中 固有 的 复杂 性 的 理论 边界 ,以 计算 重 .训练 样 便 数 其. 出 异 数量 等 本山 
e tiè 
RE Be SUNS BAe SS ee FR 
ef ht 
HAAR ASHE. FURR ERK. SPR OR UIA AE) ES RAK 
e+ 


"PSK BY 77" (Oceans razor) ; RRR BERAT. RREA RR EA a T 


o CEFARM 
SC BRAY ESE CE (power law of practice) BE FRH H TAEA A E A E AAT DEE E A A 


次 数 的 筹 级 提高 。 激 发 人 工 神 经 网 络 学 习 模式 的 神经 生物 学 研究 


eit? 
根据 有 限 数据 样本 AT RO i Se (ERS Ae. BARE ,统计 检验 


T 也 称 Bat? (Law of Parsimony ) "#5 40" ( Law of Economy), E# SBA RRHRE MARIA 32) HE 
Dp Ee E1285 ~ 1349) a a I”, -— A 


1.1 学 习 向 题 的 标准 描述 
让 我们 从 几 个 学 习 任 务 开始 研究 机 器 学 习 。 根 据 本 书 的 目的 ,我 们 给 学 习 下 一 个 宽广 的 
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Bie 4] = 3 


fe, LR a SL ESS bE ETT A, Ee oF 
F. 

定义 :如 果 一 个 计算 机 程序 针 半 某 类 任务 7 了 的 用 P 衡量 的 性 能 根据 纸 验 来 白 我 完 兽 . 
那么 我 们 称 这 个 计算 机 程序 在 从 经 验 ES, OY BRITS 了 , 它 的 性 能 用 P 米 衡量 . 


例如 ,对 于 学 习 下 西洋 跳棋 的 计算 机 程序 , 它 可 以 通过 和 自己 下 横 获 取经 验 ; 它 的 任务 
EEE AERE; CHER CRRA RES. 遂 弟 ,为 了 很 好 地 定义 一 个 学 党 问 
题 ,我 们 必须 明确 这 样 二 个 特征 :任务 的 种 类 ,衡量 任务 提高 的 标准 ,经 验 的 来 源 。 

西洋 跳棋 学 习 问 题 : 

@ 任务 TF RAPE 

9 性 能 标准 中 :比赛 中 击败 对 手 的 百分比 

@ 训练 经 验 EF MACHT 

我 们 可 以 用 以 上 方法 定义 很 多 学 习 问 题 ON PIR SA RS. 

手写 识别 学 习 问 题 : 

ets 了 :识别 和 分 类 图 像 中 的 手 与 文字 

@ 训练 经 验 瑟 : 已 知 分 类 的 于 写 文 字数 据 库 

机 句 人 驾驶 学 习 问 题 : 

e 任务 了 ;通过 视觉 传感器 在 四 本道 高 速 公路 上 驾驶 

是 性 能 标准 PP: 平均 无 差错 行驶 里 程 (差错 由 人 监督 裁定 ) 

$9 训练 经 验 :注视 人 类 莒 驶 时 录制 的 一 系列 图 像 和 敬 驶 指令 

这 里 对 学 习 的 定义 宽广 到 足以 包括 大 多 数 惯 于 被 称 为 学习" 的 任务 ,就 像 我 们 日 常 使 用 
这 个 词 一 样 。 同 时 , 它 芯 至 包括 了 以 非常 直接 的 方式 通过 经 验 有 自我 提高 的 计算 机 程序 ， 例 如， 
一 个 锡 许 用 户 更 新 数据 条 上 日 的 数据 库 系 统 , 也 符合 我 们 对 学 习 系 统 的 定 芯 : 它 根据 从 数据 库 由 
新 得 到 的 经 验 提高 它 响 应 数据 碍 鹿 的 能 力 。 与 其 担心 这 种 行为 写 日 常 谈论 的 学习" 这 个 闻 非 
正式 含义 相 混 清 ,我 们 索性 简单 地 采用 我 们 的 科技 型 定居 一 一 通过 经 验 提高 性 能 的 某 类 程序 . 
在 这 个 范畴 内 ,我 们 会 发 现 很 多 问题 或 多 或 少 需要 较 复 杂 的 解决 办 法 。 这 里 我 们 并 非 要 分 析 
“学 习 " 这 个 单词 的 日 常 含 义 ,而 是 要 精确 地 定义 一 类 问题 ,其 中 琳 括 了 有 趣 的 学 习 形 式 , 探 索 
解决 这 类 问题 的 方法 ,并 理解 学 习 癌 题 的 基本 结构 和 过 程 ， 


1.2 设计 一 个 学 习 系 统 


为 了 说 明 一 些 机 髓 学 习 的 基本 设计 方法 和 学 习 途 径 , 让 我 们 考虑 设计 一 个 学 当下 西 注 跳 
棋 的 程序 。 我 们 的 目标 是 让 它 进 人 西洋 跳棋 世界 贸 标 赛 。 我 们 采用 最 显而易见 的 标准 衡量 七 
的 性 能 :在 世界 锦标 赛 中 的 获胜 自分 比 。 


QO 为 了 更 好 理解 本 例 , 下 面 简要 介绍 一 下 这 种 跳棋 。 棋 盘 为 8x8 TH RARE 
et. WATE SPOR a FRR, RR RA E 
BAMA RAF RAE TAÍ ERA EA HART), RAR ET. 
右 图 为 西洋 跳棋 棋盘 示例 (起 始 状态 )。 —— PSE 
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1.2.1 选择 训练 经 验 


我 们 面临 的 第 一 个 设计 问题 是 选择 训练 经 验 的 类 型 ,使 系统 从 中 进行 学 半 。 给 学 习 器 提 
供 的 训练 经 验 对 它 的 成 败 有 重大 的 影响 。-- 人 关键 属性 是 训练 经 验 能 否 为 系统 的 决策 提供 直 
接 或 问 接 的 反馈 例如 ,对 于 学 习 下 西洋 跳棋 ,系统 可 以 从 直接 (direct) 的 训练 样 例 , 即 各 种 棋 
盘 状 态 和 相应 的 正确 走 子 中 学 习 - 另 一 种 情况 , 它 可 能 仅 有 间接 (indirect) 的 信息 ,包含 很 多 
过 卡 对 奔 的 十 子 序 列 和 最 终结 局 .对 于 后 一 种 情况 ,对弈 中 较 早 走 子 的 正确 性 必须 从 对 完 基 
终 的 输赢 来 推断 。 这 时 学 习 甘 又 面临 :个 信用 分 配 (credit assignment) A}, WME Rid - 
次 直子 对 最 终结 果 的 页 献 程度 。 信 用 分 配 可 能 是 -个 非常 难以 解决 的 问题 ,因为 如 果 后 面 下 
得 很 差 ,那么 即使 起 初 的 走 子 是 最 佳 的 ,这 给 棋 也 会 输 掉 。 所 以 ,从 直接 的 训练 反馈 学 习 竖 比 
从 加 接 反馈 学 习 容 易 。 

训练 经 验 的 第 二 个 重要 属性 是 学 习 冀 可 以 在 多 大 程度 上 控制 训练 样 例 序列 。 例 如 ,学 2 
器 可 能 依赖 施 教 者 选取 的 棋盘 状态 和 所 提供 的 每 一 次 止 确 移动 ;或 者 ,学 习 器 可 能 自己 提出 它 
发 现 的 特别 困惑 的 棋局 并 向 施 教 者 询问 正确 的 走 子 ; 或 者 ,学 习 器 可 以 完全 控制 棋局 和 (间接 
的 ) 训 练 分 类 ,就 像 没有 施 教 者 时 它 和 自己 对 弈 进行 学 习 一 样 。 注 意 ,对 于 最 后 一 种 情况 ,学 习 
器 可 能 选择 以 下 丙种 情况 中 的 一 种 :第 一 ,试验 它 还 未 著 虑 过 的 全 新 棋局 ;第 二 ,在 它 目 前 发 现 
的 最 有 效 的 路 线 的 微小 变化 上 对 弈 Re. JS BEE BE A ESR , 包 恬 了 
训练 经 验 是 以 超 乎 学 习 器 控制 的 随机 过 程 提供 的 ;学 习 器 可 回 施 教 者 提出 不 同类 型 的 查询 ;以 
及 学 习 器 通过 自动 探索 环境 来 搜集 训练 样 例 的 情况 。 

训练 经 验 的 第 三 个 重要 属性 是 ,训练 样 例 的 分 布 能 多 好 地 表示 实例 分 布 ,通过 样 例 来 衡量 
最 终 系 统 的 性 能 P。 一 般 耐 言 , 当 训练 样 例 的 分 布 和 将 来 的 测试 样 例 的 分 布 相似 时 ,学 汪 具 有 
最 大 的 可 信和 度 。 对 于 我 们 的 西洋 跳 模 学习, 性 能 指标 已 是 该 系统 在 世界 锦标 琶 上 获胜 的 月 分 
比 。 如 果 它 的 训练 经 验 E 仅 由 和 它 自 己 对 弈 的 训练 组 成 ,使 存在 一 个 明显 的 危险 :这 个 训练 
可 能 不 能 充分 她 代表 该 系统 以 后 被 珊 试 时 的 情形 。 例 如 ,学 习 回 可 能 在 训练 中 从 木 遇 到 过 晤 
些 致命 的 棋局 ,而 它们 又 非常 可 能 被 人 类 世界 冠军 采用 。 实 际 上 ,学习 的 样 例 通常 与 最 终 系统 
被 评估 时 的 样 全 有 一 定 差异 ,学 习 器 必须 能 从 中 进行 学 习 ( 举 例 来 说 ,世界 级 的 西洋 跳棋 塞车 
可 能 不 会 有 兴趣 教 一 个 程序 下 棋 }。 这 的 确 是 一 个 问题 ,因为 掌握 了 样 例 的 一 种 分 布 .不 -下 
会 使 它 对 其 他 的 分 布 也 有 好 的 性 能 。 可 以 看 到 很 多 最 新 的 机 闫 学 习 理 论 都 是 基于 训练 样 例 与 
测试 样 例 分 布 一 致 这 一 假设 。 尽 管 我 们 需要 这 样 的 假设 以 便 得 到 理论 结果 ,但 同样 必须 记 住 
在 实践 中 这 个 假设 经 常 是 不 成 立 的 。 

下 面 继续 进行 算法 设计 ,我们 决定 系统 将 通过 和 自己 对 弈 来 训练 。 这 样 的 好 处 是 不 需要 
外 界 的 训练 者 ,只 要 时 间 允 许 , 可 以 让 系统 产生 无 限 多 的 训练 数据 。 现 在 有 本 一 个 完整 的 学 习 
任务 、 

西洋 跳棋 学 习 问 题 ， 

ets 了 :下 西洋 跳棋 

o 性 能 标准 了 :世界 锦标 赛 上 击败 对 手 的 百分比 

o 训练 经 验 FAB CLT ARSE 

为 了 完成 这 个 学 习 系统 的 设计 ,现在 需要 选择 : 
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1) 要 学 习 的 知识 的 确切 类 型 
2) 对 于 这 个 有 是 标 知 识 的 表示 
3) 一 种 学 飞机 制 


1.2.2 选择 目标 函数 


让 一 个 设计 选 撞 是 决定 坚 学 习 的 知识 的 确切 类 型 以 及 执行 程序 怎样 使 用 这 些 知 识 。 我 们 
从 - -个 对 计 纤 何 模 局 都 能 产生 合法 (legal) 走 子 的 西洋 跳棋 博弈 程序 开始 。 那 么 ,最 终 的 程序 
公顷 学 会 从 这 些 合法 的 走 子 中 选择 最 佳 杯子 。 这 个 学 习 任 务 代 表 了 一 类 任务 :合法 走 子 定义 
了 某 个 已 知 的 巨大 搜索 空间 ,但 最 侍 的 搜索 策略 未 知 。 很 多 最 优化 问题 都 可 归于 此 ,例如 ,对 
于 生产 过 程 的 调度 和 控制 问题 。 和 掉 产 中 的 每 一 步 都 很 清楚 ,但 调度 这 些 步 又 的 最 住 策 略 未 知 。 

学 习 从 合法 走 子 中 做 出 选择 ,很 明显 , 览 学 习 的 信息 类 型 就 是 一 个 程序 或 函数 , 它 对 任 人 条 
给 定 的 棋局 能 选 出 最 好 的 走 法 , TARIE RASO ChooseMove ,并 用 沁 法 ChooseMove: B-> M 来 表 
示 这 个 本 数 接收 合法 棋局 集合 中 的 棋盘 状态 作为 输入 ,并 从 合法 走 子 集合 中 产生 某 个 走 了 作 
为 输出 。 在 关于 机 器 学 习 的 所 有 讨论 中 ,我们 发 现 把 提高 任务 T 的 性 能 P 的 问题 简化 为 学 习 
像 ChooseMove 这 样 基 个 特定 的 目标 函数 ( target funetion) 的 问题 是 很 有 益 的 。 所 以 月 标 冰 数 
的 选择 是 一 个 关键 的 设计 问题 。 

冬 管 在 鲍 子 中 很 明显 应 把 ChooseMove (EA A Ree, (ARITA RY DIRT bp aE 
非常 困难 的 ,原因 是 提供 给 系统 的 是 间接 的 训练 经 验 。 另 外 一 个 哥 供 选择 的 目标 冰 数 是 -个 
评估 请 数 , 它 为 任何 给 定 棋 局 赋 于 … 个 数字 评分 。 吕 以 发 现 , 对 于 本 例 ,学 习 这 个 有 是 标 函 数 球 
简单 。 这 个 目标 函数 为 了 ,并 用 『: BARRE 站 把 任何 台 法 的 棋局 从 集合 中 映射 到 某 ， 
个 实数 值 ( 用 , 略 来 表示 实数 集合 )， 我 们 让 这 个 目标 函数 V 给 好 的 棋局 赋予 较 高 的 评分 、 划 
水 系统 能 名 成功 地 学 会 这 个 目标 琢 数 了 ,那么 它 重 能 使 用 此 基数 轻松 地 找到 当前 棋局 的 最 住 
走 法 。 实 现 的 方法 是 , 先 产 生 每 .~ 个 合法 走 子 的 所 有 后 续 械 局 ,然后 使 用 来 选取 其 中 最 件 
的 后 继 棋 局 ,从 而 选择 最 佳 走 子 。 

对 于 任意 棋局 ,目标 函数 的 准确 值 应 该 是 多 少 呢 9” 当然 任何 对 较 好 的 棋局 赋予 较 高 分 
数 的 评 御 函数 都 和 运用。 然而 ,最 好 在 那些 产生 最 佳 对 栾 的 众多 方法 中 定义 一 个 特定 的 目标 晴 
数 FF。 可 以 看 到 ,这 将 使 得 设计 一 个 训练 算法 变 得 简单 。 因 此 ,对 于 集合 中 中 的 任意 的 棋局 
状态 5, 我 们 如 下 定义 目标 孙 数 V(b): 

1) WR b 是 一 最 终 的 胜局 ,那么 V(b) = 100 

2) WÈ b 是 一 最 终 的 负 局 ,那么 V(b) = -100 

3) ME b 是 一 最 终 的 和 局 ,那么 Vib) =O 

4) 如 果 b 不 是 最 终 棋 局 ,那么 F= V(b) HP a Mb 开始 双方 都 采取 最 优 对 弈 后 

可 达到 的 终局 。 

然而 ,由 于 这 个 定义 的 递归 性 , 它 的 运算 效率 不 高 ,所 以 这 个 定义 对 于 西洋 跳棋 比赛 者 沫 
可 用 。 除 了 无 关 紧 要 的 前 三 种 终局 的 情况 ,对 于 某 一 个 棋盘 状态 (情况 4) ,上 要 决定 它 的 值 
V(5) 需 要 同 前 搜索 到 达 终 局 的 所 有 路 线 ! 由 于 这 个 定义 不 能 由 西洋 跳棋 程序 高 效 地 运算 ,这 
个 定义 被 称 为 不 可 抬 作 的 定义 。 当 六 的 学 当 且 标 是 发 现 一 个 可 抬 作 的 定义 , 它 能 够 被 西洋 
跳棋 程序 用 来 在 实际 的 时 间 限 制 内 评估 棋局 并 选取 走 法 。 
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所 以 这 种 情况 下 ,学 习 任 务 被 简化 成 发 现 一 个 理想 目标 台数 的 可 操作 描述 、 通 销 要 完 
美 地 学 习 这 样 -个 了 的 可 操作 的 形式 是 非常 困难 的 。 事 实 上 ,通常 我 们 仅 希 望 学 习 算 法 得 到 
近似 的 目标 纯 数 ,由 于 这 个 原因 学 习 目 标 盟 数 的 过 程 角 币 称 为 函数 带 近 (function approxima- 
tion)、 在 当前 的 讨论 中 ,用 OV 来 表示 程序 中 实际 学 习 旬 的 函数 ,与 它 的 理想 目标 是 数 了 相 区 
Hil ， 


1.2.3 选择 目标 函数 的 表示 


至 此 ,我 们 已 经 确定 了 理想 的 目标 函数 中, 接 下 来 必须 选择 一 个 表示 ,被 学 习 程 序 用 采摘 
述 要 学 习 的 函数 六 。 对 此 也 有 很 多 设计 选择 。 例 如 ,可 以 让 程序 表示 六 ,方法 是 使 用 一 张大 
表 , 对 于 每 个 惟一 的 棋盘 状态 , 表 中 有 惟一 的 表 项 来 确定 它 的 状态 值 。 或 者 ,可 以 让 程序 用 一 
个 规 出 集合 来 匹配 棋局 的 特征 以 袁 示 了 ,或 采用 一 个 与 预定 义 棋盘 特征 有 关 揭 二 次 多项式 恩 
数 ,或 者 用 人 人 工 神经 元 网 络 。 通 常 ,选择 这 个 描述 包含 一 个 重要 的 权衡 过 程 。 -方面 ,我 们 总 
希望 选取 一 个 非常 有 表现 力 的 描述 ,以 最 大 可 能 地 通 近 理想 的 目标 明 数 『。 为 方面, 趣 和 有 
表现 力 的 描述 需要 越 多 的 训练 数据 ,使 程序 能 从 它 表 示 的 多 种 假设 中 选择 。 为 了 简化 讨论 , 现 
在 选择 一 个 简单 的 表示 法 :对 于 任何 给 定 的 棋 杷 状态 ,函数 V 可 以 通过 以 下 棋盘 参数 的 线性 
组 合 来 计算 : 

® x HELE THRE 

ex, AX LATHRE 

ad x HAERERE 

e x4: RELA EMRE 

s xs: 被 红 子 威胁 的 黑子 数量 ( 即 会 在 下 -~ 次 被 红 子 吃 掉 的 黑子 数量 ) 

8 x6: 被 黑子 威胁 的 红 子 数量 

于 是 ,学 习 程 序 把 (48) 表示 为 一 个 线性 了 清 数 

V(b) = wot wäit wax t wax t+ tarat WXs+ Wexg 

EF, wo 到 w, 为 数字 系数 ,或 叫 权 ,出 学 习 算法 来 选择 。 在 决定 某 -- 个 棋盘 状态 值 肝 ， 
Mw, 到 ws 决定 了 不 同 的 棋盘 特征 的 相对 重要 性 ,而 权 wo 为 一 个 附加 的 棋盘 状态 值 常量 : 

概括 一 下 目前 为 止 的 设计 选择 。 我 们 已 经 详细 阐述 了 这 个 学 习 问 题 的 原型 , 即 为 它 选 择 
一 种 类 型 的 训练 经 验 ,一 个 要 学 习 的 目标 函数 以 及 这 个 目标 函数 的 一 种 表示 。 现 在 的 学 习 尾 
务 是 : 

西洋 跳棋 程序 的 部 分 设计 |; 

9 任务 了 ;下 西 注 跳棋 

o 性 能 标准 P; 氟 界 锦 标 赛 上 击败 对 手 的 百分比 

o 训练 经 验 EMA OPENS 

© HERAN.: V: Board >f 

@ 目标 函数 的 表 承 : V(b) = wot wy xy + 了 2X2 十 其 3 和 3 二 Waka t W5X5+ Wag 

前 三 条 是 对 学 习 任 务 的 说 明 ,后 两 条 制定 了 为 实现 这 个 学 习 程 序 的 设计 方案 。 注 意 这 个 
设计 的 关键 作用 是 把 学 习 西 洋 读 棋 战 略 的 问题 简化 为 学 习 目 标 函 数 表示 中 系数 wo 到 we fH 


的 问题 。 


站 —— j i te ,imi — . 
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1.2.4 选择 函数 逼近 算法 


为 了 学习 目标 隔 数 玉 , 需 要 一 系列 训练 样 例 , 每 一 个 样 例 描述 了 特定 的 棋盘 状态 5 和 它 
HUME Views bo RAZ, BR PUA IBAA C8, Viran OVR. SEP, F 
面 的 训练 实例 描述 了 一 个 黑 棋 取胜 (注意 xz =O. NZI CARA T DERRERS b, ER 
APR PERE Virant b) A + 100。 

((4)23,2220,"5-1."4=0,x5=0,%,=0), + 100) 

PBR PRE. CAAT A ET ARVI A ee Ea .然后 调 
BR wo, DREW AEWA M 

i .估计 训练 值 

Riel) Das a , 常 习 着 可 以 得 到 的 训练 售 息 仅 是 对 弈 最 后 的 胜 负 。 另 一 方面 ,我 们 
需要 训练 样 例 为 每 个 棋盘 状态 赋予 一 个 分 值 。 给 对 弃 结 束 时 的 棋盘 状态 评分 很 容易 ,而 要 给 
对 琵 结 束 前 的 大 量 中 间 模 盘 状 态 评 分 就 不 那么 容易 了。 因为 ,一 盘 棋 的 最 终 输赢 未 必 能 说 朋 
这 副 棋 当中 的 每 一 个 棋 副 状态 的 好 坏 。 例 如 ,即使 某 个 程序 输 了 一 盘 棋 , 仍 会 有 这 样 的 情况 ， 
这 盐 棋 前 面 的 棋局 应 被 给 予 很 高 的 评价 ,失败 的 原因 在 于 后 来 糟糕 的 走 法 ， 

尽管 估计 中 间 棋 局 训练 值 具有 内 在 的 模糊 性 ,但 令 人 惊讶 的 是 有 一 个 简单 的 方法 却 取 得 
六 良好 效果 。 这 种 方法 是 把 任何 中 间 棋 局 4 URAL Vait ORT OV ( Successor (b)), LP 
Vr 是 学 习 器 目前 采用 的 VY 的 近似 哨 数 , Successor(5) 表示 6 之 后 再 轮 到 程序 走 棋 时 的 棋盘 状 
态 ! 也 就 是 程序 走 了 一 步 和 对 手 回应 一 步 后 的 棋局 )。 估 计 训练 值 的 方法 可 被 归纳 为 : 

训练 值 估计 法 则 

Virainl b) F Successor( 6)) (1.1) 

或 许 这 看 起 来 有 点 离奇 ,只 使 用 当前 的 V RATTRAY Cl RRE, (ER. RK 
们 是 在 用 后 续 棋 局 Suovessor(5) 的 估计 值 来 估计 棋局 的 值 。 赁 直觉 我 们 可 以 看 到 , 越 接近 游戏 结 
束 的 棋局 的 越 趋向 精确 。 事 实 上 ,在 特定 条 件 下 (将 在 第 13 章 讨 论 ), 这 种 基于 对 后 继 棋 局 进行 
估计 的 选 代 估 计 训 练 值 的 方法 ,已 被 证 明 可 以 近乎 完美 地 收 敏 到 Vs 估计 值 。 

2, 调 整 权 值 

剩 下 的 事情 就 是 为 这 个 学 习 算 法 选择 最 适合 训练 样 例 15，Vion(&8))| 的 权 w,。 第 一 步 
必须 定义 最 佳 所 会 (best fit) 训 练 数据 的 合 疼 。 一 种 常用 的 方法 是 把 最 佳 的 假设 (或 权 仁 集合 ) 
定义 为 使 训练 值 和 假设 六 预测 出 的 值 间 的 误差 平方 和 至 最 小 。 

E = :3 (Virain( ) - POY 


th, F raint pie Hroiuing example 


至 此 ,我 们 的 目标 就 是 寻找 权 值 或 了 ,使 对 于 观测 到 的 训练 数据 5 值 最 小 。 第 6 草 将 讨 
沦 在 什么 条 件 下 ,最 小 化 误差 平方 和 等 价 于 寻找 给 定 观 测 训 练 数 据 下 的 最 可 能 假设 。 
已 经 知道 一 些 算法 可 以 得 到 线性 消 数 的 权 使 此 定义 的 EE 最 小 化 。 在 这 里 第 要 一 个 算法 ， 
它 可 以 在 有 了 新 的 训练 样 例 时 进一步 精 化 权 值 ,并 且 它 对 估计 的 训练 数据 中 的 差错 有 好 的 健 
壮 性 。- 一 个 这 样 的 算法 被 称 作 最 小 均 方 法 (least mean squares), RIU LMS 训练 法 则 。 对 于 每 
-训练 样 例 , 它 把 权 值 向 减 小 这 个 训练 数据 误差 的 方向 略为 调整 。 如 第 4 章 讨 论 的 那样 ,这 个 
算法 可 被 看 作对 可 能 的 假设 ( 权 值 ) 空 间 进 行 随机 的 梯度 下 降 搜 索 ,以 使 误差 平方 和 最 小 
i. LMS 算法 是 这 样 定义 的 : 
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LMS 权 值 更 新 法 则 
对 于 每 一 个 训练 样 全 (8 了 V ruin © 8)? 
e 使 用 当前 的 权 计 算 Vib) 
$ 对 每 一 个 权 值 w, 进行 如 下 更 新 
Ww wot nf V iran th) = V(8)) Xi 


这 里 p EAA EAN 0.1), R a E E E A EL RI TEL 
值 更 新 法 则 的 工作 原理 ,请 注意 , 当 误 差 (Vwn(b) - EGA O ATSU “4 
(Venn (6) - VC 8) AEBS (OO, 4 Y(8) 太 低 时 ) ,每 一 个 权 值 会 根据 其 对 应 的 特征 值 增 加 
- - 定 的 比例 。 这 会 提升 (#5) 的 值 而 减 小 误差 。 注意 ,如 果 半 个 参数 x; 为 0 .那么 它 的 值 不 会 
因 这 个 误差 而 改变 ,这 样 就 使 只 有 那些 在 训练 样 例 的 棋局 中 确实 出 现 的 特征 的 权 值 才 被 更 新 . 
令 大 屹 惊 的 是 ,在 一 定 的 条 件 下 ,这 种 简单 的 权 值 调整 方法 秆 证 明 可 以 收 切 到 Fa 值 的 最 小 
误差 半 方 巡 近 {参见 第 4 章 的 相关 讨论 )， 


1.2.5 Eikit 


西洋 跳棋 学 习 系 统 的 最 终 设计 可 以 用 四 个 不 同 的 程序 模块 来 描述 ,这 些 模块 在 很 多 党 习 
系统 中 是 核心 组 件 。 这 四 个 模块 被 归纳 在 图 1-1 中 ,下 面 分 列 介 绍 ， 
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执行 系统 [Performamce System) 这 个 模块 是 用 学 会 的 日 标 函数 来 解决 给 定 的 尾 务 ,在 此 
就 是 对 弈 西洋 跳棋 。 它 把 新 问题 (新 一 盘 棋 ) 的 实例 作为 输入 ,产生 一 组 解答 路 线 (对 穿 历 史记 
录 ) 作 为 输出 。 在 这 里 ,执行 系统 采用 的 选择 下 一 步 走 法 的 策略 是 由 学 到 的 评估 函数 来 决 
定 的 。 所 以 我 们 期 待 它 的 性 能 会 随 着 评估 函数 的 日 益 准 确 而 提高 。 
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USE SE (Critic) 它 以 对 弈 的 路 线 或 历史 记录 作为 输入 ,输出 目标 贰 数 的 一 系列 训练 样 
例 ， 如 图 所 于 ,每 一 个 训练 样 例 对 应 路 线 中 的 某 个 棋具 状 态 和 日 标 曙 数 给 这 个 样 例 的 详 佑 伺 
Vs 在 我 们 的 例子 中 ,鉴定 器 对 应 公式 (3.1) 给 出 的 训练 法 则 . 

汉化 器 (Generalizer】 它 以 训练 样 例 作为 输入 ,产生 一 个 输出 假设 ,作为 它 对 目标 遇 数 的 
佑 计 、 它 从 特定 的 训练 样 例 中 汉化 ,猜测 一 个 一 般 图 数 ,使 其 能 够 复 盖 这 些 梓 例 以 及 桩 例 之 外 
的 情形 “在 我 们 的 例子 中 ,省 化 器 对 应 LMS 算法 ,输出 候 设 是 用 学习 到 的 权 值 #0,...，wse 
描述 的 函数 V. 

实验 生成 器 (Experiment Generator) 它 以 当前 的 假设 (当前 学 到 的 畏 数 ) 作 为 输入 , 辖 出 

个 新 的 问题 (例如, 最初 的 棋局 }) 供 执行 系统 去 探索 。 它 的 作用 是 挑选 新 的 实践 问题 ,以 使 整 
个 系统 的 学 习 速 率 最 大 化 。 在 我 们 的 例子 中 ,实验 生成 器 采用 了 非常 简单 的 策略 : 它 总 是 给 出 

:个 同样 的 初始 棋局 来 开始 新 的 一 盘 棋 。 更 完善 的 策略 可 能 禾 力 于 精心 设计 棋子 位 置 以 探索 
棋盘 空间 的 特定 区 域 。 

总 体 来 看 ,我们 为 西洋 跳棋 程序 作 的 设计 就 是 产生 执行 系统 EE oe Ze a PS: 
器 的 特定 实例 。 很 多 机 器 学 习 系 统 通常 可 以 用 这 四 个 通用 愤 块 来 刻画 。 

设计 西洋 跳棋 程序 的 流程 被 归纳 在 图 1-2 中 。 这 个 设计 已 经 在 儿 方 面 把 学 习 任 务 和 限制 在 
较 小 的 范围 内 ,。 要 学 习 的 知识 类 型 被 限制 为 一 个 单一 的 线性 评估 陌 数 ,而 且 这 个 评 住 耳 数 被 
限制 为 促 依 赖 于 六 个 棋盘 特征 ， 如 果 目 标 函 数 真 的 可 表示 为 这 些 特定 参数 的 线性 组 全 ,那么 
程序 学 到 这 个 目标 函数 的 订 能 性 很 大 。 反 之 ,最 多 只 能 希望 它 学 到 - -个 非常 接近 的 近似 ,因为 
一 个 程序 当然 不 能 学 会 它 根本 不 能 表示 的 东西 。 

我 们 假定 真实 函数 的 一 个 非常 接近 的 近似 确实 可 被 表示 为 这 种 形式 。 那 么 问题 变 成 
这 种 学 习 技 术 是 否 确 保 能 发 现 一 个 非常 接近 的 近似 。 第 13 章 提 供 了 一 种 理论 分 析 , 夫 明 对 于 
基 些 燃 型 的 搜索 问题 ,在 相当 严格 的 前 提 下 ,这 种 方法 确实 收 人 证 到 期 望 的 评 佑 函数 .很 痊 运 ， 
实践 经 验 表 明 这 种 学 习 评 估 范 数 的 途径 经 常 是 成 功 的 ,甚至 在 能 被 证 明 的 情形 之 外 也 是 如 此 : 

忆 经 设计 的 程序 能 学 得 是 够 好 以 致 可 以 击 嫌 入 类 的 西洋 跳棋 冠军 吗 ? 或 许 不 能 。 部 分 原 
因 是 因为 的 线性 孙 数 表示 太 简 单 ,以 致 于 不 能 很 好 捕 提 这 种 棋 的 微妙 之 处 。 然 而 ,如 来 给 
出 一 个 更 完善 的 自 标 函数 表示 法 ,这 种 通用 的 途径 事实 上 可 以 非 冲 成功， 例 旭 ，Tesauro 
11992，1995) 发 表 了 学 习 下 西洋 双 陆 棋 的 程序 的 类 似 设计 ,方法 是 学 习 针 对 棋局 的 一 个 非常 
类 似 的 评估 函数。 他 的 程序 使 用 人 工 神 经 元 网 络 表示 学 到 的 评估 哨 数 ,考虑 对 慌 局 的 完整 摘 
证 而 不 是 棋盘 的 凡 个 参数 。 经 历 了 一 百 万 次 以 上 的 自我 生成 的 训练 比赛 后 ,他 的 程序 能 够 和 
一 流 的 人 类 西洋 双 陆 棋 选 手 一 争 高 下 。 

当然 还 可 能 为 西洋 跳棋 学 习 任 务 设计 很 多 其 他 的 算法 。 例 如 ,可 以 只 简单 地 存储 训练 样 
例 , 然 后 去 寻找 保存 的 “最 接近 的 "情形 来 匹配 新 的 情况 (最 近邻 算法 ,第 8 章 ) ,或 者 可 以 产生 
大 量 候选 的 西洋 跳棋 程序 ,并 让 它们 相互 比赛 ,保留 最 成 功 的 程序 并 进一步 用 模拟 进化 的 方式 
来 培育 或 变异 它们 (遗传 算法 , 见 第 9 章 )。 人 类 似乎 遵循 男 一 种 途径 来 寻找 学 习 策略 ,他们 分 
析 或 向 自己 解释 比赛 中 碰 到 的 某 一 次 成 败 的 原因 (基于 解释 的 学 习 , 见 第 11 章 )。 上 面 的 设计 
是 这 些 种 类 中 的 一 个 简单 的 算法 , 它 是 为 了 给 我 们 今后 针对 特定 类 别 的 任务 的 学 习 方 法 设计 
葛 定 基础 . 
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1.3 机 器 学 习 的 一 些 观点 和 问题 


在 机 器 学 习 方 面 , 一 个 有 效 的 观点 是 机 髓 学 习 问 题 经 萤 归 绪 于 搜索 问题 , 即 对 一 个 非 沿 大 
的 假设 空间 进行 搜索 ,以 确定 一 个 最 佳 拟 合 观察 到 的 数据 和 学 习 器 已 有 知识 的 假设 。 例 如 , 考 
虑 一 下 上 面 的 西洋 跳棋 学 习 程 序 输出 的 假设 空间 。 这 个 假设 空间 包含 所 有 问 由 权 wo 到 wg 
的 不 间 值 表示 的 评估 晒 数 。 于 是 学 习 器 的 任务 就 是 搜索 这 个 空间 来 定位 与 训练 数据 最 佳 拟 人 台 
的 假设 。 针 对 拟 合 权 值 的 LMS 算法 通过 迁 代 调整 权 值 实 更 了 这 个 目的 。 每 当 人 很 设 的 评 佑 图 
数 预 测 册 一 个 与 训练 数据 有 偏差 的 值 时 ,就 对 每 个 权 值 进行 校正 。 当 学 习 兹 考虑 的 假设 表 洲 
定义 了 一 个 连续 的 参数 化 的 讲 在 假设 空间 时 ,这 个 算法 很 有 效 。 

本 书 的 很 多 章节 给 出 了 对 一 些 基 本 表示 (例如 ,线性 函数 .逻辑 描述 ARR A LAJ 
网 络 ) 定 义 的 假设 空间 的 搜索 算法 。 这 些 不 同 的 假设 表示 法 适合 于 学 习 不 同 的 日 标 藉 数 。 对 
于 其 中 的 每 一 个 假设 表示 法 ,对 应 的 学 习 算 法 发 挥 不 同 内 在 结构 的 优势 来 组 织 对 假设 空间 的 
搜索 。 

自始至终 ,本 书 都 鞭 穿 着 这 种 把 学 习 问 题 视 为 搜索 问题 的 看 法 ,从 而 通过 搜索 策略 和 学 习 
器 探索 的 搜索 空间 的 内 在 结构 来 刻画 学 习 方 法 。 我 们 也 会 发 现 , 这 种 观点 对 于 形式 化 地 分 析 
时 搜索 的 很 设 空间 的 大 小 .可 利用 的 训练 样 例 的 数量 以 及 一 个 与 训练 数据 一 致 的 假设 能 证 化 
到 未 见 实例 的 置信 和 度 这 三 者 之 间 的 关系 很 有 效 。 
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都 致力 于 回答 类 他 下 面 的 问题 : 
$ 存在 什么 样 的 算法 能 从 特定 的 训练 数据 学 习 - - 般 的 目标 函数 呢 ? 如 果 提 供 了 充足 的 训 
练 数据 ,什么 样 的 条 件 下 会 使 特定 的 算法 收敛 到 期 户 的 函数 ? 哪个 算法 对 哪些 问题 和 
表示 的 性 能 最 好 。 
© 多少 训 练 数据 是 充足 的 ? 怎样 找到 学 习 到 假设 的 置信 和 度 与 训练 数据 的 数量 及 提供 给 学 
习 器 的 假设 空间 等 性 之 间 的 一 般 关 系 ? 
号 学 习 器 拥有 的 先 验 知 识 是 怎样 引导 从 样 例 进行 泛 化 的 过 程 的 ? 当先 验 知识 仅仅 蚌 近 朴 
正确 时 ,它们 会 有 帮助 吗 ? 
e 关于 选择 有 效 的 后 续 训 练 经 验 , 什 么 样 的 策略 最 好 ? 这 个 策略 的 选择 会 如 何 影响 学 习 
问题 的 复杂 性 ? 
© 怎样 把 学 习 任 务 简化 为 一 个 或 多 个 函数 台 近 问题 ? RAK, RRR AE 
PRR? 这 个 过 程 本 身 能 自动 化 吗 ? 
e 学 习 器 怎样 白 动 地 改变 表示 法 来 提高 表示 和 学 习 目 标 丽 数 的 能 力 ? 


1.4 如 何 阅读 本 书 


这 本 书 介绍 了 机 髓 学 习 的 主要 算法 和 途径 ,不 同学 习 任 务 可 行 性 和 特定 算法 能 力 的 理论 
结果 以 及 机 器 学 习 应 用 于 解决 现实 问题 的 例子 。 我 们 尽力 做 到 各 音 的 写作 都 与 岗 读 顺序 无 
关 , 然 而 各 章 的 相互 依赖 性 是 不 可 避免 的 。 如 果 本 书 用 作 教 科 书 ,我 建议 首先 阅读 第 1 章 和 第 
2 章 , 剩 下 来 的 各 童 基本 可 以 以 任意 有 顺序 阅读 。 一 个 学 期 的 机 器 学 习 谋 程 可 以 包括 前 7 了 7 章 以 
及 额外 的 几 个 最 感 兴趣 的 章节 。 下 面 简 要 介绍 一 下 各 童 内 容 ， 

oF 2 章 包 括 基于 符号 和 交 辑 表示 的 概念 学 习 。 也 讨论 了 假设 的 一 般 到 特殊 但 序 结构 和 

学 习 中 引入 归纳 偏 置 的 必要 性 。 

9 第 3 章 包 括 决 策 树 学 习 和 过 度 拟 合 训练 数据 的 问题 。 这 一 音 也 剖析 了 奥 坎 姆 剃刀 一 一 
该 原则 建议 在 与 数据 一 致 移 假 设 中 选择 最 短 假设 。 

e 第 4 章 和 包括 人 工 神经 网 络 的 知识 ,特别 是 已 研究 得 很 好 的 反 向 传播 算法 以 及 梯度 下 降 
的 一 般 方 法 。 这 一 章 包 含 一 个 详细 的 基于 神经 网 络 的 人 脸 识别 实例 ,该 例 需 要 网 数据 
和 算法 可 以 在 万 维 网 上 得 到 。 

® 第 5 童 给 出 了 来 自 统 计 和 估计 理论 的 基础 概念 ,着 重 于 使 用 有 限 的 样本 数据 评 售 很 说 
的 精度 。 这 一 章 包 含 了 用 于 估计 假设 精度 的 置信 和 空间 和 对 不 同学 习 算法 的 精度 进行 比 
较 的 方法 。 

e 第 6 章 介绍 机 器 学 习 的 贝 呈 斯 观点 。 既 包括 了 使 用 贝 叶 斯 分 析 刻 王 非 贝 叶 斯 学 习 算 
法 ,又 包括 了 直接 处 理 概 率 的 贝 叶 斯 算法 。 这 一 章 包 括 一 个 应 用 贝 叶 斯 分 类 符 来 分 拓 
文本 文档 的 详细 例子 ,所 需 的 数据 和 软件 可 以 在 万 维 网 上 得 到 。 

9 第 7 童 涵盖 了 计算 学 习 理 论 , 包 括 可 能 近 拟 正确 (Probably Approximately Correct, PAC) 

的 学 习 模型 和 出 错 界限 ( Mistake-Bound) 学 习 模 型 。 本 人 章 讨 论 了 联合 多 个 学 习 方 法 的 
MAL LAK WEIGHTED MAJORITY) 算 法 。 
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第 8 章 描述 了 基于 实例 的 学 习 方 法 ,包括 最 近邻 学 习 法 .局 部 加 权 回 归 法 和 基 才 索 鲍 药 
推理 法 . 

e 第 9 章 讨论 了 根据 生物 进化 建 模 的 学习 算法 ,包括 遗传 算法 和 遗传 编程 ， 

e 第 10 前 涵盖 了 一 组 学 习 规 则 集合 的 算法 ,包括 学 习 一 阶 Hom 子 句 的 归纳 还 辑 编程 方法 。 

ef 11 章 包 含 了 基于 解释 的 学 习 , 即 一 种 使 用 以 前 的 知识 解释 观察 到 的 实例 ,然后 根据 
这 些 解 释 来 泛 化 的 学 习 方 法 。 

第 12 章 讨 论 了 把 以 前 的 近似 知识 结 人 台 到 现 有 的 训练 数据 中 来 ,以 担 商学 导 精 度 的 方 
法 。 其 中 ,符号 算法 和 神经 网 络 算法 都 有 讨论 。 

ef 13 章 讨论 了 增强 学 习 ,。 这 种 方法 是 为 了 控制 学 习 , 这 种 学 习 包 括 作 为 训练 信息 中 的 
间接 或 延迟 的 及 馈 信 息 。 本 章 前 面 提 及 的 下 棋 学 习 程 序 基 增强 学 习 的 一 个 简单 的 例 
Te 

但 章 的 结尾 包 售 了 所 涵盖 的 主要 概念 的 小 结 . 进 -- 步 阅读 的 参考 和 习题 ,， 对 章节 的 中 新 ， 

包括 数据 集 和 算法 的 实现 ,都 可 从 网 址 http: //www.cs.cmu. edu/tom/mlbook . html 得 到 ， 


1.5 小 结 和 补充 读物 


机 器 学 习作 力 于 研究 建立 能 够 根据 经 验 白 我 提高 椒 理 性 能 的 计算 机 程序 。 该 部 分 的 要 点 
Efi: 
@ 杞 器 学 习 算 法 在 很 多 应 用 领域 被 证 明 很 有 实用 价值 。 它们 在 以 下 方面 特别 有 用 :(a) 数 
据 控 期 问题 . 即 从 大 量 数 据 中 发 现 可 能 包含 在 其 中 的 有 价值 的 规律 (例如 ,从 患者 数据 
库 中 分 析 治 疗 的 结果 ,或 者 从 财务 数据 中 得 到 信用 贷款 的 普 届 规则) 在 某 些 困难 汐 
领域 中 ,人 们 可 能 还 不 具有 开发 出 高 将 的 算法 所 项 的 知识 (比如 ,从 图 像 库 中 识别 出 大 
脸 );(e) 计 算 机 程序 必须 动态 地 适应 变化 的 领域 (例如 ,在 原料 供给 变化 的 环境 下 进行 
生产 过 程控 制 , 或 适应 个 人 阅读 兴趣 的 变化 )。 
机 器 学 习 从 不 同 的 学 科 吸 收 概念 ,包括 人 工 智能 .概率 和 统计 计算 复 淋 性 ,信息 论 、 心 
理学 和 神经 生物 学 .控制 论 以 及 哲学 - 
e 一 个 完整 定义 的 学 习 问 题 带 要 一 个 骨 确 界定 的 任务 ,性 能 度量 标准 以 及 训练 经 验 的 来 源 . 
es 机 器 学 习 算法 的 设计 过 程 中 包含 许多 选择 ,包括 选择 训练 经 验 的 类 型 .要 党 习 的 旧 怀 下 
数 .该 目标 函数 的 表示 形式 以 及 从 训练 样 例 中 学 习 旧 标明 数 的 算法 。 
© 学习 的 过 程 即 搜索 的 过 程 ,搜索 包含 可 能 假设 的 空间 ,使 得 到 的 假设 最 符合 已 有 的 训练 
样 例 和 其 他 预先 的 约束 或 知识 。 本 书 的 大 部 分 内 容 转 绕 着 搜索 各 种 假设 空间 (例如 , 包 
合 数值 函数 .神经 网 络 .决策 树 、 符 号 规则 的 空间 ) 的 不 同学 习 方 法 以 及 理论 上 这 些 搜索 
方法 在 什么 条 件 下 会 收 伍 到 最 佳 假 设 : 
有 很 多 关于 机 器 学 习 最 新 研究 成 果 的 优秀 资源 可 供 阅 读 。 相 关 的 杂志 包括 $4 机 各 学习》 
( Machine Learning) ,4 神经 计算 》( Neural Computation ) ,《 神 经 网 络 》( Neural Networks), 4 Æ 
HAHAA Journal of the American Statistical Association ) MICIEEE 模式 分 析 和 和 机 前 
an HERIR IEEE Transactions on Pattern Analysis and Machine Intelligence ) o 也 有 大 量 的 咎 
会 种 闭 了 机 器 学 习 的 各 个 方面 ,包括 国际 机 器 学 习 会 议 (ICMI) ,神经 信息 处 理 系 统 会 以 
(NIPS) ,计算 学 习 理论 会 议 (CCLT) ,国际 遗传 算法 会 议 (ICGA), 国 际 知识 发 现 和 数据 控 媳 会 
议 (KDD) .欧洲 机 史学 习 会 议 (ECML) 等 。 


ww ai bbt.com PO0O0O0D0D0OO0O 








给 出 三 种 机 器 学 习 方 法 适合 的 计算 机 应 用 ,三 种 不 适合 的 计算 机 应 用 。 挑 选 本 书 未 提 及 
的 应 用 并 对 每 个 应 用 以 一 句 话 来 评价 
挑选 一 些 本 书 未 提 到 的 学 习 任务 。 写 一 疏 话 非 正 式 地 加 以 描述 。 再 尽 可 能 精确 地 描述 
出 它 的 任务 ,性 能 衡量 标准 和 训练 经 验 。 最 后 ,给 出 要 学 习 的 目标 函数 和 它 的 表示 。 讨 
论 这 个 任务 设计 中 考虑 的 主要 折 中 。 
证 明 本 章 描述 的 LMS 权 更 新 法 则 采用 了 梯度 下 降 方法 使 误差 平方 最 小 化 。 确 切 地 讲 . 
像 文中 那样 定义 误差 平方 。 然 后 计算 E 对 权 w; 的 导数 ,其 中 假定 六 (5) 与 文中 定义 
的 一 样 , 是 一 个 线性 函数 。 梯 度 下 降 是 通过 与 - 3 成 比例 地 更 新 每 个 权 值 实现 的 。 所 
以 ,必须 证 明 对 于 所 遇 到 的 每 一 个 训练 样 例 , LMS 训练 法 则 都 是 按 这 个 比例 来 改变 权 
值 。 
Pe 1-1 中 实验 生成 器 模块 可 采用 其 他 一 些 策略 。 确 切 地 讲 ,考虑 实验 生成 器 用 下 面 的 策 
略 提出 新 的 模 局 ， 

© 产生 随机 的 合法 的 棋局 

© 从 前 面 的 对 弈 中 挑选 一 个 棋局 ,然后 走 -- 步 上 次 没有 走 的 棋 面 产生 新 的 棋局 

o -种 你 自己 设计 的 策略 
讨论 这 些 策略 的 优 劣 。 如 果 训 练 样 例 的 数量 是 图 定 的 , 哪 一 个 效果 最 好 ? 假定 性 能 衡量 
标准 是 在 世界 锦标 赛 上 赢 棋 最 多 。 
使 用 类 似 于 西洋 跳棋 问题 的 算法 ,实现 一 个 更 简单 的 tic-tac-toe WERE, EAI TAR 
HV 表示 为 自选 的 棋局 参数 的 线性 组 合 。 在 训练 这 个 程序 时 ,让 它 和 它 的 另 一 个 拷贝 
反复 比赛 ,后 者 使 用 一 个 手工 建立 的 固定 评估 函数 。 绘 制 出 你 的 程序 的 获胜 率 随 训练 次 
数 的 变化 情况 。 
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第 2 章 MeF YARRA 


从 特殊 的 训练 样 例 中 归纳 出 一 般 函 数 是 机 医学 习 的 中 心 问题 。 本 章 介 绍 概念 学 习 : 给 定 
某 --… 类 齐 的 若干 正 例 和 反例 ,从 中 获得 该 类 别 的 一 般 定 义 。 概 念 学 习 也 可 以 看 作 是 一 个 搜索 
问题 的 过 程 , 它 在 预定 义 的 假设 空间 中 搜索 假设 ,使 其 与 训练 样 例 有 最 佳 的 拟 合 度 。 多 数 情形 
下 ,为 了 高 效 的 搜索 ,可 以 利用 假设 空间 中 一 种 自然 形成 的 结构 一 一 即 一 般 到 特殊 偏 序 结 构 。 
本 章 展示 了 几 种 概念 学 习 算法 ,并 讨论 了 这 些 算法 能 收敛 到 正确 假设 的 条 件 。 这 里 还 分 析 了 
归纳 学 习 的 本 质 以 及 任意 程序 能 从 训练 数据 中 泛 化 的 理由 。 


2.1 简介 


许多 机 器 学 习 问 题 涉及 到 从 特殊 训练 样 例 中 得 到 一 艇 概念 。 比 如 估 们 不 断 学 习 的 一 些 一 
般 概念 和 类 别 包 括 : 乌 类 ,汽车 .勤奋 的 学 习 等 。 知 个 概念 可 被 看 作 一 个 对 象 或 事件 集合 , 它 是 
从 更 大 的 集合 中 选取 的 子 集 ( 如 从 动物 的 集合 中 选取 鸟 类 ), 或 者 是 在 这 个 较 大 集合 中 定义 的 
布尔 函数 (如 在 动物 集合 中 定义 的 函数 , 它 对 乌 类 产生 true 并 对 其 他 动物 产生 false), 

本 章 考 由 的 问题 是 ,给 定 一 样 例 集 台 以 及 每 个 样 例 是 否 属于 某 -- 概 念 的 标注 EF A shy HE 
断 出 该 概念 的 一 般 定 义 。 这 一 问题 被 称 为 概念 学 习 (concept learning) ,或 称 从 样 例 中 逼近 布 
尔 值 函数 。 


EM: 概念 学 习 是 指 从 有 关 某 个 布尔 消 数 的 输入 输出 训练 样 例 中 推断 出 该 布尔 妙 数 、 


2.2 概念 学 习 任 务 


为 了 更 好 地 理解 概念 学 习 , 考 虚 一 个 概念 学 习 的 例子 ,本 例 的 目标 概念 是 :“ Aldo 进行 水 
上 运动 的 日 子 "。 表 2-1 描述 了 一 系列 日 子 的 样 例 , 每 个 样 例 表示 为 属性 的 集合 。 属 人 狂 En- 
joySport 表示 这 一 天 Aldo 是 否 乐于 进行 水 土 运动 。 这 个 尾 务 的 目 的 是 基于 某 天 的 各 属性 y LA 
预测 出 该 天 EnjoySport 的 值 ， 


2-1 目标 概念 与 joySpor WEAH RH 








Example Sky AirTemp Humidity Hind W ater Forecast EnjoySport 
| Sunny Warm Normal Strong Warm Same Yes 
2 Sunny Warm High Strong Warm Same Yes 
3 Rainy Cold High Strong Warm Change Nn 


在 这 种 情况 下 ,采取 什么 样 的 形式 来 表示 假设 呢 ? 可 以 先 考 起 一 个 较为 简单 的 形式 , 即 实 
例 的 各 属性 约束 的 合 取 式 。 在 这 里 ,可 令 每 个 假设 为 6 个 约束 的 向 量 ,这 些 约 束 指定 属性 
Sky 、AirTemp Humidity, Wind. Water 和 Forecast 的 值 。 每 个 属性 可 到 什 为; 
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eh” Fea EE RETE., 

© 明确 指定 的 属性 值 { 如 arm )。 

e 由 “好 "表示 不 接 有 党 任何 值 。 

如 果 某 些 实例 x 满足 假设 中 的 所 有 约束 ,那么 hr 分 类 为 正 例 (xz)=T)。 EW, A 
判定 Aldo 只 在 寒冷 和 潮 温 的 日 子 里 进行 水 上 运动 (并 与 其 他 属性 无 关 ) ORR] eos A 
FARREA: 

(?, Cold, High, 1, ?, 7) 

最 一 般 的 假设 是 每 一 天 都 基 正 例 , 可 表示 为 : 

CF ele tee 
iti Fee PPR A eB EA ABE eB PABA 
(8, 8, 08,6, 0, ø)? 

综 上 所 述 , EnjoySport 这 个 概念 学 习 任 务 需要 学 习 的 是 使 EnjoySport = yes 的 日 子 , 并 将 
其 表示 为 属性 约束 的 合 取 式 。 一 般 说 来 ,任何 概念 学 习 任 务 能 被 描述 为 :实例 的 集合 ,实例 集 
合 上 的 日 标 函 数 、 候 选 假设 的 集合 以 及 训练 样 例 的 集合 。 以 这 种 一 般 形 式 定义 的 EnjoySport 
概念 党 习 任务 见 表 2-2。 

表 22 EnjoySport 概念 学 习 尾 务 
eck: 
eA x: TREHET, BTA Taf mR: 
@ Siy TRA Sunny, Cloudy 和 Rainy) 
@ AirTemp ("REA Warm 和 Cold) 
@ Humidity (ARIA A Normal 和 High) 
@ Wind (ARAYA Strong 和 Peak} 
@ Water (ERY Warm 和 Cool) 
@ Forecast (A RAY Same M Change) 
@ HEM 所 :每 个 假设 描述 为 厂 个 属性 Sky, dirTemp, Humidity. Wind, Water 和 Forecast 的 值 约 东 的 合 
RK, AGRE LA?" aE RA) O ERHAN). E 
@ AIRS c: EnjoySport: X—t0, 1 
@ 训练 样 例 集 D: ARSE PA A OLA 2-1) 
ek.: 
o 厅 中 的 一 假设 上 ,使 对 于 X PER «Aled = lx) 


2.2.1 术语 定义 


在 本 书 中 ,我 们 使 用 以 下 的 术语 来 讨论 概念 学 习 问 题 。 概 念 定义 在 一 个 实例 (instance) 集 
合 之 上 ,这 个 集合 表示 为 X AEP, X 是 所 有 可 能 的 日 子 , 每 个 日 子 由 Sky, AirTemp 、 
Humidity, Wind , Water 和 Forecast KAREAR., FRE AI RR RRR A BARS ( tar- 
get concept) , 记 作 c。 一 般 来 说 ,c 可 以 是 定义 在 实例 集 焉 上 的 任意 布尔 函数 , 即 c: X10, 
1 。 在 这 个 例子 里 ,目标 概念 对 应 于 属性 EnjoySport 的 值 ( 当 EnjoySport = Yes 时 etx) = 1， 
当 EnjoySport = No IY ,e(x)} =9). 

在 学 习 目 标 概 念 时 ,必须 提供 一 套 训 练 样 例 (training examples) ,每 个 样 例 为 x 中 的 一 个 
实例 x 以 及 它 的 目标 概念 值 c(*)( 如 表 2-1 中 的 训练 样 例 )。 对 于 ce(x) = 1 的 实例 被 称 为 正 
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fi (positive example) ,或 称 为 目标 概念 的 成 员 ，、 对 于 elx) = 人 0 的 实 便 为 反 们 {negative exam- 
ple) ,或 称 为 非 日 标 概念 成 员 , 经 党 可 以 用 六 偶 ix ,clx) 来 描述 训练 样 例 ,表示 其 包含 了 实 
例 x FLL PRB Rel x), fs D 用 来 表示 训练 样 例 的 集合 。 

-HATE HERES e 的 训练 样 例 集 ,和 学习 颖 面临 的 问题 就 是 假设 或 估计 c。 使 用 符号 H 
HE AG AK PY T REAL IK (all possible hypotheses) 的 集合 ,这 个 集合 才 是 为 确定 日 标 概 念 所 考虑 的 
il, AY H KIT AER Rit ie. E PA ORI A Bea OX EE MK eR 
MD A,X 10,1). lide A ee AR MRIS AE OX 中 的 所 有 ,h(x)= 
el x }. 


2.2.2 归纳 学 习 假 设 


机 器 学 习 的 任务 是 在 整个 实例 集合 X 确定 与 月 标 概念 c 相同 的 假 没 ,然而 我 们 对 于 
c 仅 存 的 信息 只 是 它 在 训练 样 例 上 的 值 ， 因 此 ,归纳 学 习 算法 最 多 只 能 保证 输出 的 假设 能 与 
洲 练 样 例 相 拟 合 。 如 果 没 有 更 多 的 信息 ,我 们 只 能 假定 ,对 士 末 见 实例 最 好 的 秋 没 就 是 与 训 终 
数据 最 佳 拟 合 的 假设 。 这 是 归纳 学 习 的 一 个 基本 假定 ,本 书 中 将 对 此 刁 更 多 的 阐述 。 这 里 我 
们 只 是 简单 提 及 ,第 5.6.7 章 将 更 形式 地 利 定量 地 审定 和 分 析 这 一 假定 。 

归纳 学 习 假设 ” 任 -一 假设 如 果 存 足够 大 的 训练 样 例 集中 很 好 地 逼近 目标 函数 , 它 也 能 在 
未 见 实例 中 很 好 地 志 近 目标 函数 。 


2.3 作为 搜索 的 概念 学 习 


概念 学 习 可 以 看 作 是 一 个 搜索 的 过 程 ,范围 是 假 没 的 表示 所 和 隐 舍 定义 的 整个 空间 ，。 搜 索 
的 目标 是 为 了 寻找 能 最 好 地 拟 合 训练 样 例 的 假设 。 必 须 注 意 到 , 妆 假 设 的 表示 形式 选 定 后 , 那 
么 也 就 隐 含 地 为 学 习 算 法 确定 了 所 有 假设 的 空间 .这些 和 假设 是 学 习 程 序 所 能 表示 的 ,也 是 它 
能 够 学 习 的 。 考 虑 在 EnjoySport 学 习 任务 中 的 实例 集合 X 和 假设 集合 H. WERE Sky 有 
3 种 可 能 的 值 , 面 AirTemp , Humidity, Wind, Water 和 Forecast 都 只 有 两 种 可 能 值 , 则 实例 
空间 XAT 3x2x2x2x2x2=5%6 种 不 同 的 实例 。 类 拟 的 计算 可 得 ,在 假说 空间 吕 中 ， 
有 5x4x4x4x4x4=5120 种 语法 不 同 (syntactically distinet) 的 假设 。 然 而 ,注意 到 包含 有 
阁 符 号 的 假设 代表 空 实例 集合 , 即 它们 将 每 个 实例 都 分 类 为 反例 。 因 此 ,请 义 不 同 (semanti- 
cally distinet) 的 假设 只 有 1+4x3x3x3x3x3=973 个 。 这 里 的 EnjoySport 例子 是 - -个 非 
常 简单 的 学 习 任 务 , 它 的 假设 空间 相对 较 小 息 有 限 。 多 数 实际 的 学 习 任 务 包 含 更 大 的 ,有 时 是 
无 限 大 的 假设 空间 。 

如 果 把 学 习 春 作 是 一 个 搜索 问题 ,那么 很 自然 ,对 学 习 算 法 的 研究 需要 考查 假设 空间 搜索 
的 不 同 策略 。 特 别 引 起 我 们 兴趣 的 算法 应 能 有 效 地 搜索 非常 大 的 或 无 限 大 的 假设 空间 ,以 找 
到 最 佳 拟 合 训练 数据 的 假设 。 


假设 的 一 般 到 特殊 序 


许多 概念 学 习 算 法 中 ,搜索 假设 空间 的 方法 依赖 于 一 种 镍 对 尾 意 慨 念 学 习 都 很 有 效 的 络 
构 : 假 设 的 一 般 到 特殊 序 关 系 。 利 用 假设 空间 的 这 种 自然 结构 ,我 们 可 以 在 无 限 的 假设 空间 中 
进行 彻底 的 搜索 ,而 不 需要 明确 地 列举 所 有 的 假设 。 为 说 明 一 般 到 特殊 序 关系 ,考虑 以 下 两 个 


假设 ; 
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hy = Sunny, ?, ?, Strong, 7. 7) 
hy =< Sunny, 7, ?, 7,7, 2) 
哪些 实例 可 被 | FA he 划分 为 正 例 ? 由 于 h er HY SEES RE, TRAE A EAEE 
多 .实际 上 ,任何 被 h 划 分 为 正 例 的 实例 都 会 被 AD 划分 为 正 例 ,因此 ,我 们 说 A, 比 hi 更 一 
般 ， 
直观 上 的 ”" 比 …… 更 一 般 " 这 种 关系 可 以 有 如 下 精确 定义 。 首 先 ,对 于 中 的 任意 实例 * 和 
H 中 的 任意 假设 ,我 们 说 当 且 仪 当 h(x)= 1 时 x 满足 训 。 现 在 以 实例 集合 的 形式 定义 一 个 
more _ general _ than _or _egual _ to 的 关系 :给 定 很 设 h; AD hi, h; more _ general _than _or _ 
equal to Ay, 当 且 仅 当 任意 一 个 满足 hi 的 实例 同时 也 满足 ho 


EM: Sh, 和 和 AEX be AAAS eR. PR h; more _ general _ than or _ equal _ to 
hi GEIE hy >), SEAN 
(YE XE Ch ss boa x) = 13) 


有 必要 考虑 -假设 严格 地 比 男 一 假设 更 -- 般 的 情形 。 因 此 ,我 们 说 A, 严格 的 more gen- 
eral _ than h BYE hi> hr), SARI h; p) ACh Fh) BG ERE MiB RK 
“hEr 更 特殊 ”为 h; more _ specific . than h,. W h, more _ general _ than h,» 

为 说 明 这 些 定 义 , 考 虑 EnjoySport 例子 中 的 3 了 个 假设 hiha, ha, SUA 2_ 1 所 和 示 。 这 三 个 
I E >, 关系 相关 联 起 来 的 ”如 前 所 述 ,Aa E khi 更 一 般 是 因为 每 个 注 足 上 的 实例 
都 满足 hao SCAM, ho 也 比 hs 更 一 般 。 注意 A, A, 之 间 相 互 之 间 不 存在 >。 关系 ,虽然 
满足 这 两 个 假设 的 实例 有 交 秋 ,但 没 有 -个 集合 完全 包含 另 -个 集合 。 注 意 实 。 和 > ， 关系 的 
定义 独立 于 目标 概念 。 它 们 只 依赖 于 满足 这 两 个 假设 的 实例 ,而 与 根据 目标 购 念 进行 的 实例 
分 类 无 关 。 用 形式 化 的 语言 来 说 , > ,关系 定义 了 假设 空间 刀 上 的 一 个 偏 序 ( 即 这 个 关系 是 自 
E 、 反 对 称 和 传递 的 )。 偏 序 关 系 的 含义 { 对 应 于 全 序 ) 是 ,可 能 存在 像 hi 和 A, 这 样 的 一 对 息 
HE, Chi # ty) ME (hg P hy). 





1,= <Sunay, Warm, High, Strong, Cool, Same> y= <Senny, 7, 7. Strong, 7, ?> 
k m cy: Warm, High, Light, Warm, Sames A= <Sunay, %. 27 2, P> 
= Suny, *, 7, 7, Cool, 7> 


EOE CORSE 了 ,右边 的 方 框 代 表 所 有 供 设 集合 Ho PMNS RRA A XY PRS 
介 一 一 即 补 此 租 设 划分 为 正 例 的 揭 台 。 连 接 假设 的 箭头 代表 more _ general than HR. WLP A RR 
假设 。 注 意 到 3; HWA RST A, 对 应 的 实例 子 集 , 因 此 h: more _ general _ than h; 


图 2-1 实 讽 ,假设 和 more general than 关系 
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>, 关系 很 重要 ,因为 它 在 假设 空间 H 上 对 任意 概念 学 习 问 题 提供 了 一 种 有 效 的 结构 . 
后 面 的 章节 将 阐述 概念 学 习 算 法 如 何 利 用 这 一 偏 座 结 构 有 效 地 搜索 假设 空间 ， 


2.4 FIND-S: 寻 找 极 大 特殊 假设 


如 何 使 用 more _ general _than 偏 序 来 搜索 与 训练 样 例 相 一 致 的 假设 呢 ? 一 种 办 法 是 从 
H 中 最 特 蛛 假设 开始 ， 然 后 在 该 假设 覆盖 正 例 和 失败 时 将 其 -- 般 化 ( 当 一 假设 能 正确 地 划分 一 
个 正 例 时 , 称 该 假设 “覆盖 "该 正 例 )。 使 用 偏 序 实现 的 FrNp-S$ 算法 的 精确 描述 见 表 2-3, 


3% 2-3 FIND-S 算法 


1, A MEA H PRR EE 
Oth 的 每 个 赂 性 约束 a; 
如 果 x 满足 a, 
ABA AS AE fo] eh 
否则 将 a Fa WRA: 满足 的 另 -个 更 一 般 约 东 
3. BHR A 


为 说 明 这 一 算法 ,假定 给 予 学 习 器 的 一 系列 训练 样 例如 表 2-1 AR. Finn-S 的 第 一 步 是 
将 初始 化 为 日 中 最 特殊 的 假设 : 
h~-(6,9,0,0,8,0) 
在 观察 表 2-1 中 第 一 个 训练 样 例 时 ， 它 刚好 是 个 正 例 ， 很 清楚 ， 这 时 的 KERT. h 
中 的 每 一 个 O 都 不 满足 该 样 例 的 约束 ， 因 此 ， 每 个 属性 都 被 替换 成 能 满足 该 例 的 另 -- 个 曲 
一 般 的 值 约束 ， 也 就 是 这 一 样 例 的 属性 值 本 身 : 


h«-(Suany, Warm, Normal, Strong, Warm, Same) 

这 个 仍旧 太 特殊 了 , 它 把 除了 第 一 个 样 例 以 外 的 所 有 实例 都 划分 为 反例 。 下 一 步 ,第 2 
个 训练 样 例 ( 仍 然 为 正 例 ) 迫 使 该 算法 进一步 将 请 泛 化 。 这 次 使 用 "7 代替 k 中 不 能 被 新 样 例 
满足 的 属性 值 ,这 样 假设 变 为 ， 

he Sunny, Warm , 7, Strong, Warm, Same? 

然后 处 理 第 三 个 训练 样 例 ,这 是 一 个 反例 ,天 不 变 。 实 际 上 ,FiNp-S 算法 简单 地 和 忽略 每 一 
个 反例 ! 这 一 开始 似乎 有 点 奇怪 。 注 意 , 这 时 假设 仍然 与 新 的 反例 一 致 ( 即 上 能 将 此 例 正 
确 地 划分 为 反例 ) ,因此 不 需要 对 六 作 任何 更 改 。 一 般 情 况 下 ,只 要 我 们 假定 很 设 空间 H 确实 
包含 真正 的 目标 概念 , 面 且 训练 样 例 不 包含 错误 ,那么 当前 的 假设 上 不 需要 因 反 例 的 出 现 前 
和 更改。 原因 在 于 当前 假设 有 是 HH 中 与 所 观察 到 的 正 例 机 一 致 的 最 特殊 的 假设 ,由 于 假定 目标 
概念 = EHP, BREE- -EESMAA EARR AA EE h 更 一 般 , 而 目标 概念 c 不 会 
覆盖 一 个 反例 ,因此 也 不 会 (由 more _ general than 的 定义 )}。 因 此 ,对 反例 ,不 需要 作出 
任何 更 改 。 

接着 完成 Finp-$ 算法 ,第 四 个 正和 例 使 得 更 一 般 : 

h-i Sunny, Warm, ?, Strong, ?, 7) 

FIND-S 算法 演示 了 一 种 利用 more _ general _ than 偏 序 来 搜索 假设 空间 的 方法 。 这 一 搜 

索 沿 着 偏 序 链 ,从 较 特 殊 的 假设 逐渐 转移 到 较 一 般 的 假设 。 图 2-2 说 明了 在 实例 和 假设 空间 
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Re TT ee ee te re nan, ta ae ae er 
设 都 是 在 那 一 点 上 与 训练 样 例 _ 致 的 最 特殊 的 假设 。 这 也 是 其 名 字 Finn S 的 由 来 。 概 念 学 
习 的 思想 在 许多 不 同 的 算法 中 用 到 ,它们 使 用 了 同样 的 more _general _ than 偏 序 。 -部 分 算 
法 在 本 章 讨论 , 另 一 些 放 在 第 10 章 。 
FIND-$ 算法 的 重要 特点 是 :对 以 属性 约束 的 合 取 式 描述 的 假设 空间 (如 , EnjoySport 中 的 
H), Fino-S 保证 输出 为 H 中 与 正 例 一 致 的 最 特殊 的 假设 。 只 要 正确 的 目标 概念 包含 在 H 中 
并 且 训 练 数据 都 是 正确 的 ,最 终 的 假设 也 与 所 有 反例 一 致 。 然 而 ,这 一 学 习 算法 仍 存在 一 些 未 
解决 的 问题 : 
。 学 习 过 程 是 否 收敛 到 了 正确 的 日 标 概念 ? 虽然 Finos 找到 了 与 训练 数据 一 致 的 假设 ， 
但 没 办 法 确定 它 是 否 找到 了 惧 一 合适 的 假设 ( 即 目标 概念 本 身 ) ,或 者 说 是 否 还 有 其 他 
可 能 的 假设 。 我 们 希望 算法 知道 它 能 否 收敛 到 目标 概念 ,如 果 不 能 ,至 少 要 找 述 出 这 种 
不 确定 性 。 
。 为 什么 要 用 最 特殊 的 假设 。 如 果 有 多 个 与 训练 样 例 一 致 的 假设 , Frwo-S 只 能 找到 最 特 
吻 的 。 为 什么 我 们 偏好 最 特殊 的 假设 ,而 不 选 最 -一般 的 假设 ,抑或 -- 般 程度 位 于 两 者 之 
间 的 某 个 假设 。 
。 训练 样 例 是 否 相互 _- 致 ”在 多 数 实际 的 学 习 问 题 中 ,训练 数据 中 常 出 现 某 些 错误 或 品 
声 ,这 样 的 不 一 致 的 训练 集 将 严重 破坏 Fwp_S 算法 ,因为 它 忽 略 了 所 有 反例 。 我 们 其 
妄 的 算法 至 少 能 检测 出 训练 数据 的 不 一 致 性 ,并 且 最 好 能 容忍 这 样 的 错误 。 
© 如 果 有 多 个 极 大 特殊 假设 怎么 办 ?在 EnjoySport 任务 的 假设 语言 妞 中 ,总 有 -一个 惟一 
的 最 特殊 假设 与 训练 数据 一 致 。 然 而 ,对 其 他 一 些 假设 空间 (后 而 将 讨论 到 ) ,可 能 有 多 
个 极 大 特殊 假设 。 这 种 情况 下 ,FiND-S 必须 被 扩展 ,以 允许 其 在 选择 怎样 泛 化 假设 的 路 
径 上 回 淹 , 以 容纳 目标 假设 位 于 偏 序 结构 的 另 一 分 支 上 的 可 能 性 。 更 进一步 ,我 们 可 以 
定义 一 个 不 存在 极 大 特殊 假设 的 假设 空间 ,然而 ,这 是 一 个 更 理论 性 的 问题 而 不 是 实践 


阿 题 { 见习 十 2.7)。 
AM Xx HRH 





Ay = <2, 2, 2, 2, 2, a> 

x, = <Siemy Warm Normal Strong Warm Same>, + A) = <Sunny Warm Normal Siong Warm Same> 
x3 = “Sunny Ware High Siroag Warm Same>, + ha = <Sunny Warm ? Strong Warm Some» 
Xw «Rainy Codd High Strong Warm Chonge>, - A, = oy Warm ? Seong Worm ar 

xq” Sumy Warm High Strong Cool Change>, + h, = <Sunny Warm ? Strong 7 ?> 


ERIT H RPP DOBLE ky PUG AE UL OES PE AB A, 到 Ay). EXAT ARH. E 
HERA +", REA", ITA E A EPP pa A 


图 2-2 FINDS 中 的 假设 空间 搜索 
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2.6 ”变型 空间 和 收 选 消除 算法 


本 节 描 述 的 是 概念 学 习 的 另 一 种 途径 即 候选 消除 (CANDIDATE-ELIMINATION) 算 法 。 它 
能 解决 Fino-S 中 的 若干 不 足 之 处 。Frnp-s 输出 的 假设 只 是 H 中 能 够 拟 合 训练 样 例 的 多 个 假 
设 中 的 一 个 。 而 在 候选 消除 算法 中 ,输出 的 是 与 训练 样 例 一 致 的 所 有 假设 的 集合 。 邻 人 惊奇 
的 是 ,候选 消除 算法 在 描述 这 一 集合 时 不 需要 明确 列举 其 所 有 成 员 。 这 也 归功 于 more _ gen- 
eral _ than 偏 序 结 构 。 在 这 里 需要 维护 一 个 一 致 假设 集合 的 简洁 表示 ,然后 在 过 刘 新 的 训练 
样 例 时 逐步 精 化 这 一 表示 。 

候选 消除 算法 的 应 用 有 :从 化 学 质谱 分 析 (ehemical mass spectroscopy) 中 学 习 规 则 性 
(Mitehell 1979) 和 学 习 启 发 式 搜 索 的 控制 规则 { Mitchell et al. 1983)。 然 而 ,候选 消除 算法 和 
FIND-S 算法 的 实际 应 用 都 受到 限制 ,因为 它们 在 训练 数据 含有 噪声 时 性 能 较 差 。 在 这 里 介绍 
候选 消除 算法 的 目的 是 为 引 人 若 干 基本 的 机 器 学 习 问 题 提 供 一 个 良好 的 概念 框架 。 本 章 其 余 
部 分 将 震 示 这 ~- 算 法 及 相关 的 问题 。 从 下 一 章 开 始 将 考察 对 有 咒 声 数据 的 处 理 上 更 常用 的 学 
习 算 法 。 


251 表示 


候选 消除 算法 寻找 所 有 与 训练 样 例 一 致 的 假设 。 为 精确 描述 这 一 算法 ,这 里 先 引 人 一 些 
基本 的 定义 。 首 先 , 当 一 个 假设 能 正确 分 类 一 组 样 例 时 ,我 们 称 这 个 假设 是 与 这 些 样 例 一 致 的 
{consistent ) 。 

EX: 一 个 假设 让 与 训练 样 例 集 合 D 一 致 , 当 且 仅 当 对 p 中 每 一 个 样 例 (x ,clx)) 都 有 
h(x) = e( x). 

Consistent (h ,Da(Y x ctr) € DB) h(x)= elx) 

注意 ,这 里 定义 的 一 埃 与 前 面 定义 的 满足 是 不 同 的 。 一 个 样 例 x 在 h(x)=1 时 称 为 满足 
假设 ,不论 x 是 目标 概念 的 正 例 还 是 反例 。 然 而 ,这 一 样 例 是 否 与 一致 则 与 目标 松 念 有 
天 ,其 是否 h(x)= elw)。 

候选 消除 算法 能 够 表示 与 训练 样 例 一 致 的 所 有 假设 。 在 假设 空间 中 的 这 一 子 集 和 被 称 为 关 
于 假设 空间 H 和 训练 样 例 DD 的 变型 空间 (version space) ,因为 它 包 含 了 目标 概念 的 所 有 合理 
的 变型 。 

定义 ;关于 假设 空间 H 和 训练 样 剑 集 六 的 变型 空间 ,标记 为 YSr np, 是 吕 中 与 训练 样 例 


D 一 致 的 所 有 假设 构成 的 子 集 。 
VSy p= {AC H | Consistent(h, D)} 


2.5.2 JIM ARR 


显然 ,表示 变型 空间 的 一 种 方法 是 列 出 其 所 有 成 员 。 这 样 可 产生 一 个 简单 的 算法 , 称 为 列 
表 后 消除 (LIST-THEN-ELIMINATE) 算 法 ,其 定义 见 表 2-4。 
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#2-4 列表 后 消 内 算法 
Fy Ze ha PRR 
1, EREN] YersionSpace 一 包含 HH 中 所 有 假设 的 列表 
2. 对 每 个 训练 样 例 tx， et x 
从 变型 空间 中 穆 除 所 有 ht 2) cl x EA A 
3. 输出 VersionSpace 中 的 假设 列表 


列表 后 消除 算法 首先 将 变型 空间 初始 化 为 包含 H 中 所 有 的 假设 ,然后 从 中 去 除 与 任 一 训 
练 样 例 不 一 致 的 假设 。 包 含 候 选 假设 的 变型 空间 随 着 观察 到 越 来 越 多 的 样 例 而 缩减 ,直到 只 
剩 一 个 (理想 情况 下 ) 与 所 有 样 全 一致 的 假设 ,这 可 能 就 是 所 要 的 目标 概念 。 如 果 没 有 充足 的 
数据 使 变型 空间 缩减 到 上 只 有 一 个 假设 ,那么 该 算法 将 输出 一 个 集合 ,这 个 集合 中 所 有 的 假设 与 
训练 样 例 都 一 致 。 

原则 上 ,只 要 假设 空间 是 有 限 的 ,就 可 使 用 列表 后 消除 算法 。 它 具有 很 名 优点 ,如 能 保证 
得 到 所 有 与 训练 数据 一 致 的 假设 。 但 是 ,这 一 算法 要 求 非 常 繁琐 地 列 出 H 中 所 有 假设 ,这 对 
于 大 多 数 实际 的 假设 空间 是 不 现实 的 要 求 。 


2.5.3 EPR See 


候选 消除 算法 与 上 而 的 列表 后 消除 算法 遵循 同样 的 原则 。 然 而 , 它 使 用 一 种 更 篇 澳 的 变 
型 空间 表示 法 。 在 此 ,变型 空间 被 表示 为 它 的 极 大 一 般 的 和 极 大 特殊 的 成 员 。 这 些 成 员 形 成 
了 一 般 和 特殊 边界 的 集合 ,这 些 边 界 在 整个 偏 序 结 构 中 划分 出 变型 空间 。 

为 说 明 变 型 空间 的 这 种 表示 ,再 一 次 考虑 表 2-2 中 描述 的 EnjoySport 概念 学 习 问 题 。 对 
于 表 2-1 中 给 定 的 4 个 训练 样 例 ,FIND-S 输出 假设 : 

h=(Sunny, Warm, ?, Strong, ?, ?) 

实际 上 ,这 只 是 五 中 与 训练 样 例 一 致 的 所 有 6 个 假设 之 一 。 所 有 6 个 假设 在 图 2-3 FR 
示 出 ,它们 构成 了 与 该 数据 集合 和 假设 表示 相对 应 的 变型 空间 。6 个 假设 之 间 的 简 头 表示 实 
例 间 的 more _ general _ than KH. PIAS Ae AR A -ERRER 2-3 中 标 为 
CG) 和 极 大 特殊 成 员 ( 图 中 标 为 $) 来 表示 变型 空间 。 只 给 定 这 两 个 集合 5 和 ,就 可 以 列举 出 
变型 空间 中 的 所 有 成 员 , 方 法 是 使 用 一 般 到 特殊 偏 序 结构 来 生成 SHG RAZA AR 
Bo 


S: i | <Sunny, Warm, 7, Strong, 7. ?> ] 


a io 


<Sunny, ?, ?, Strong, ?, ?> <Suany, Warm, 7, 7, 2 ?> <}, Warm, 7, Strong, ?, ?> 


a 





„| [eSunny, 7, 2,7. 7, Po, <?, Warm, °, 7, 9, ?> ) 





变型 空间 中 包 人 入 了 所 有 5 个 很 设 , 但 可 以 简单 地 用 5 CR. ARRAY more _ general _ than K 
Fo APSF 2-1 PPR EnjoySport 概念 学 习 问 题 及 其 训练 样 例 


图 2-3 ”变型 空间 及 其 一 般 和 特殊 边界 集合 
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可 以 直观 地 看 出 ,使 用 极 大 一 般 和 极 大 特殊 集合 表示 变型 空间 的 作法 是 合理 的 。 下 面 我 
们 精确 地 定义 SAG 这 两 个 边界 集合 ,并 且 证 明 它 们 确实 代表 了 变型 空间 。 


定义 :关于 假设 空间 H 和 训练 数据 D 的 一 般 边 界 (general boundary) C ,是 在 H PAD + 
一 致 的 极 大 一 般 (maximally general) RAW - 
G= | ge H | Consistent ( g DJAC 一 本 ge H)| (g >g} A Consistent ( g', D) || 


EM: 关于 假设 空间 A 和 训练 数据 D 的 特殊 边界 (specific boundary) S, E H P5 D 
相 一 致 的 极 大 特殊 (maximally specific) 成 员 的 集合 。 
S=} sEH | Consistent(s, DYA Js E H)| is > ws A Conststent(s', D) |i 


只 要 集合 CAS 被 良好 地 定义 了 (见习 题 2.7) ,它们 就 元 全 规定 了 变型 空间 。 这 里 还 可 
以 证 明 ,变型 空间 的 确切 组 成 是 : C 中 包含 的 假设 ,$ 中 包含 的 假设 以 及 G 和 5 之 间 偏 序 结 构 
所 规定 的 假设 。 
定理 2.1: 变 型 空间 表示 定理 令 x 为 一 任意 的 实例 集合 , H 为 了 上 定义 的 布尔 假设 的 集合 。 
S e: X10, 1| 为 二 上 定义 的 任 -- 旭 标 概 念 ,并 令 D 为 任 一 训练 样 例 的 集合 i x， el x) |， 对 
MAH X, H, e, D UAURRIEXH SHG: 
FSrD= | REHI(JsE85)(3gE G) (gz Azp)! 
证 明 :为 证 明 该 定理 只 需 证 明 :(1) 每 一 个 满足 上 式 右 边 的 产 者 在 YSp.p 中 , 心 2 FSp,p 的 每 个 
成 员 都 满足 等 式 右边 。 为 证 明 ( 刘 , 令 g 为 中 任意 一 个 成 员 ,s AS PHRMA ARE 
RAMH ge Aes. 由 3 的 定义 ,s 必须 被 妃 中 所 有 的 正 例 满足 。 因 为 hes, hD PA 
正 例 满足 。 相 似 地 ,由 6 的 定义 ,g 必须 不 被 六 中 任 一 反例 满足 , 且 由 于 g hk BARR D PA 
有 反例 满足 。 由 于 上 被 六 中 饭 有 正 例 满足 日 不 被 其 中 所 有 皮 例 满足 ,因此 六 与 已 一 繁 , 因 此 天 是 
VSy 5 的 成 呈 。 这 证 明了 步 台 (1)。(2) 的 讨论 稍微 有 些 复 杂 , 可 以 使 用 反 证 法 , 傻 定 Vsa o PE 
一 六 不 满足 等 式 右边 ,那么 将 产生 矛盾 (网 习题 2.6)。 


2.5.4 候选 消除 学 习 算法 


候选 消除 算法 计算 出 的 变型 空间 ,包含 H 中 所 有 与 训练 样 例 的 观察 序列 一 致 的 假设 。 开 始 ， 
变型 空间 被 初始 化 为 H 中 所 有 假设 的 集合 。 妈 将 6 边界 集合 初始 化 为 A 中 最 一 般 的 假设 ; 
和 
并 将 5 边界 集合 初始 化 为 最 特殊 (最 不 一 般 ) 的 假设 : 
, Soila, A,A, 0,0,0): 
这 两 个 边界 集合 包含 了 整个 假设 空间 。 因 为 H 中 所 有 和 假设 都 比 $o 更 一 般 , 且 比 Go 更 特 
殊 。 算 法 在 处 理 每 个 训练 样 例 时 , S 和 C 边界 集合 分 别 被 泛 化 和 特殊 化 ,从 变型 空间 中 连 步 
消去 与 样 例 不 一 致 的 假设 。 在 所 有 训练 样 例 处 理 完 后 ,得 到 的 变型 空间 就 包含 了 所 有 与 样 例 
一 致 的 假设 ,而 且 只 包含 这 样 的 假设 。 这 一 算法 在 表 2-5 PHB. 
£25 司 用 变型 空间 的 刚 选 消除 自 法 
HOG ROP H PRA REE 
和 将 5 RAMA A 中 极 大 特殊 假设 
对 每 个 训练 样 例 od ,进行 以 下 操作 : 
eH 4 是 一 正 例 
oc PREMAS d AARRE 
各 对 3 中 每 个 与 ARARE 


OM s HBE: 
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e i: 的 所 有 的 极 小 汉化 式 & 加 入 到 5 中 ,其 中 让 满嘴 
各 并 与 对 一 - 致 .而且 CHATEA AE - 般 
OMS 中 移 去 所 有 这 样 的 假设 ; 它 比 中 另 … 候 设 更 -- 般 
大 如 果 dE tH 
e 从 5 中 移 去 所 有 与 d 不 一 烙 的 慨 设 
e3 c HETE d RRA g 
OK G PEE » 
ef s MAAR) Ria MARC PRP ARE 
@e15¢—-.iTH 5 ARARA HEA BHR 
者 从 55 PRARARRAIRE: CM CHU -RRENA 


注 ; LELAPRALER RH BRS HCH, 


注意 算法 中 的 操作 ,包括 对 给 定 假设 的 极 小 汉化 式 和 极 小 特殊 化 式 的 计算 ,和 确定 那些 非 
极 小 和 非 级 大 的 假设 。 有 具体 的 实现 当然 依赖 于 实 鲍 和 假设 的 表示 方式 。 然 而 ,只 要 这 些 操作 
被 良好 地 定义 了 ,该 算法 就 可 应 用 于 任意 概念 学 习 和 任意 恨 设 空间 。 在 以 下 将 实 奈 演示 算法 
的 运行 步骤 ,从 中 可 以 看 到 在 EnjoySport 这 个 例子 中 这 些 操作 是 怎样 实现 的 。 


2.5.5 算法 的 举例 


图 2-4 演示 了 候选 消除 算法 应 用 到 表 2-1 中 前 两 个 训练 样 例 时 的 运行 步骤 。 如 上 所 述 . 
边界 集合 先 被 初始 化 为 Go 和 30 ,分别 代表 H 中 最 一 般 和 最 特殊 的 假设 。 

当 第 1 个 训练 样 例 出 现时 (这 里 为 一 正 例 ) ,候选 消除 算法 检查 Ss 边界 ,并 发 现 它 过 于 特 
殊 了 一 一 因为 它 不 能 覆盖 该 正 例 。 这 一 边界 就 被 修改 为 紧邻 的 更 一 般 的 息 设 ,以 覆盖 新 的 样 
例 。 收 改 后 的 边界 在 图 2-4 中 显示 为 S 6 边界 不 需要 修改 ,因为 Co BIE RAE 
例 。 当 处 理 第 2 个 训练 样 例 时 (也 是 一 个 正 例 ) ,同样 需要 将 5 进一步 泛 化 到 5;, 6 PIAA EE 
(G= Gi= Co)。 注 意 , 对 前 两 个 正 例 的 处 理 非 常 类 似 于 Finp-5S 算法 。 

在 前 两 步 的 算法 中 , 正 例 使 得 变型 空间 的 S 边界 逐渐 泛 化 ,而 反例 扮演 的 角色 恰好 相反 
使 得 GC 边界 逐渐 特殊 化 。 考 虑 第 3 个 训练 样 例 , 如 图 2-5 所 示 。 这 一 反例 显示 , 6 边界 过 于 
一 般 了 。 也 就 是 说 , C 中 的 恨 设 错误 地 将 该 例 判 定 为 正 例 。 因 此 6 边界 中 的 假设 必须 被 特殊 
化 ,使 它 能 对 新 的 反例 正确 分 类 。 如 图 2-5 所 示 ,这 里 有 几 种 可 选 的 极 小 更 特殊 的 假设 。 这 些 
全 都 成 为 新 的 G， 边界 集合 的 成 员 。 

有 6 个 属性 可 以 用 来 使 C 特殊 化 ,为 什么 只 有 3 个 在 63 PR? hag (7, 7, Nor- 
mal, 7, ?, DE 6, 的 一 个 极 小 特殊 化 式 , 它 能 够 将 新 的 样 鲍 正确 地 划分 为 反 钢 ,但 它 不 在 
G3 中 。 将 这 一 假设 排除 在 外 的 原因 是 , 它 与 以 前 遇 到 的 正 例 不 一 致 。 在 算法 中 只 是 简单 地 判 
断 A 并 不 比 当 前 特殊 边界 S 更 一 般 。 实 际 上 变型 空间 的 S 边界 形成 了 以 往 正 例 的 摘要 说 
明 , 它 可 以 用 来 判断 任何 给 定 的 假设 是 否 与 以 往 样 例 一 致 。 根 据 定义 ,任何 比 S 更 一 般 的 假 
设 能 够 覆盖 所 有 5 能 覆盖 的 样 出, 即 以往 的 所 有 正 例 。 同 样 , 6 边界 说 明了 以 往 所 有 反例 的 
信息 、 任 何 比 G 更 特殊 的 假设 能 保证 与 所 有 反例 相 一 致 。 这 是 因为 根据 定义 ,和 任 一 假设 不 会 
Mc G 所 不 能 覆盖 的 样 例 。 
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TH, 8, 2, 3, o, A> 







$4 :|(<Sunny, Warm, Normal, Strong. Warm, Same> | 


$4:| | <Sunny, Warm, ?, Strong, Warm, Same> } 
Gy, G+: | (<2 272, 7 Po] | 


WSF MA: 
] <Sunny, Wann, Normal, Strong, Warm, Same>, Enjoy Sport = Yes 


2. <Sunny, Warm, High, Strong, Wann, Same>, Enjoy Sport = Yes 


SoM Co 为 最 初 的 边界 集合 ,分 别 对 应 最 特殊 和 最 - 般 假 设 ， 训 练 样 例 1 和 2 使 得 5 边界 变 得 更 一 般 ,如 Fis 
5 算法 中 一 样 ,这些 样 例 对 6 边界 没有 影响 


图 2-4 候选 消除 算法 步骤 | 


Sar 3:[{ <Suany, Warm ?, Strong, Warm, Same» ) 





VISA: 


3, <Rainy, Cold, High, Strong, Warm, Change>, EnjoySport=No 
样 例 3 是 一 反例 , 它 把 62 边界 特殊 化 为 563， 注意 在 G3 中 有 守 个 可 选 的 极 大 一 般 假 设 
图 2-5 KAHRA AEE? 
第 4 个 训练 样 例如 图 2-6 所 示 ,使 变型 空间 的 $ 边界 更 一 般 化 。 它 也 导致 & 边界 中 的 一 
个 成 员 被 般 除 ,因为 这 个 成 员 不 能 覆盖 新 的 正 例 。 最 后 这 一 动作 来 自 于 表 2-5 算法 中 "如 采 d 
是 一 正 例 "下 的 第 一 步骤 。 为 理解 这 一 步 的 原因 ,需要 考虑 为 什么 不 一 致 的 假设 要 从 5 PB 
去 。 注 意 这 一 假设 不 能 再 被 特殊 化 ,因为 这 样 它 将 不 能 覆盖 新 的 样 例 。 它 也 不 能 被 泛 化 ,因为 
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按照 6 的 定义 ,任何 更 一 般 的 假设 至 少 会 覆盖 一 个 上 反例。 这 样 ,这 一 假设 必须 从 C 中 移 去 ， 
也 相当 于 移 去 了 变型 空间 的 含 序 结构 中 的 一 个 分 支 。 


S 3: |{<Sunny, Warm, ?, Strong, Warm, Same>} 
S 4: {<Sunny, Warm, ?, Strong, ?, ?>} 





Gra: ii<Sunny, 7,7, 7,7, < Warm, 7, 7, 7, ?>} 


VIS A: 
4.<Sunny, Warm, High, Strong, Cool, Change>, EnjoySport = Yes 


IEA s 边界 更 一 般 ,从 SEA Sy. GA- TRARE eR ,因为 它 不 再 比 $4 边界 更 一 般 
图 2-6 候选 消除 算法 此 又 3 
在 处 理 完 这 4 个 样 例 后 ,边界 集合 Sa 和 G4 划分 出 的 变型 空间 包含 了 与 样 例 一 致 的 所 有 
假设 的 集合 。 整 个 变型 空间 ,包含 那些 由 5, 和 6, 界定 的 假设 都 在 图 2-7 中 有 显示。 这 一 变型 
空间 不 依赖 于 训练 样本 出 现 的 次 序 ( 因 为 最 终 它 包含 了 与 训练 样 例 集 一 致 的 所 有 假设 )。 如 果 
提供 更 多 的 训练 数据 , S 和 C 边界 将 继续 单调 移动 并 相互 靠近 ,划分 出 越 来 越 小 的 变型 空间 


HE 


Ye 


<Sunry, ?, ?, Strong, ?, ?> <Sunny, Warm, ?, ?, ?, ?> <?, Warm, ?, Strong, ?, ?> 


ZN 


Gas] (<Sunny, 2 ?, 2, 2, ?> <?, Warm, ?, 2 2 >] 





图 2-7 EnjoySport 概念 学 习 问 题 中 的 最 终 的 变型 空间 


2.6 关于 变型 空间 和 候选 消除 的 说 明 
2.6.1 候选 消除 算法 是 否 会 收 煞 到 正确 的 假设 
由 候选 消除 算法 得 到 的 变型 空间 能 够 收 全 到 描述 目标 福 念 的 笨 设 的 条 件 是 :(1) 在 训练 样 
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例 中 没有 错误 。(2) H 中 确实 包含 描述 日 标 概 念 的 正确 假设 。 实 际 上 ,如 果 过 到 新 的 训练 样 
例 , 可 以 监测 变型 空间 以 关 定 其 与 真正 的 目标 概念 之 间 是 否 还 有 分 歧 , 以 及 为 精确 确定 目标 概 
念 还 需要 多 少 训 练 样 例 。 当 5 和 6 边界 集合 收 人 证 到 单个 的 可 确定 的 假设 时 ,目标 概念 才 真 正 
获得 。 

如 果 训 练 数 据 中 包含 鲁 误会 怎样 ? 比如 ,以 上 例子 中 第 二 个 样 例 被 错误 地 标 为 一 反例 。 
遗憾 的 是 ,这 种 情况 下 ,算法 肯 征 会 从 变型 空间 中 删除 正确 的 目标 概念 。 因 为 它 会 删除 所 有 与 
样 例 不 一 致 的 假设 ,所 以 在 遇 到 这 一 错误 的 反例 时 ,算法 将 从 变型 空间 中 移 去 正确 的 日 标 概 
So. SR ,如 果 给 定 足 驶 的 训练 数据 ,最终 ,我 们 会 发 现 $ 和 和 6 边界 收 合 得 到 -~ 个 空 的 变型 空 
癌 ,从 而 得 知 训练 数据 有 误 。 空 的 变型 空间 表示 H 中 没有 假设 能 够 与 样 例 一 致 。 相 似 的 情形 
会 出 现在 另 一 种 环境 中 :训练 样 例 正 确 , 但 目标 概念 不 能 由 假 谨 表示 方式 所 描述 (比如 目标 概 
念 是 某 几 个 属性 特征 的 析 取 ,而 假设 空间 只 支持 合 取 的 形式 )。 以 后 我 们 将 详细 考虑 这 些 可 能 
性。 有 是 前 ,我们 只 考虑 样 例 数 据 是 正确 的 并 且 目 标 概念 确实 在 假设 空间 中 。 


2.6.2 下 一 步 舌 要 什么 样 的 训练 样 例 


到 这 里 我 们 都 假定 训练 样 例 由 某 个 外 部 的 施 教 者 提供 。 假 想 学 习 器 可 以 主宰 实验 进程 ， 
下 一 步 它 概 自 己 选择 一 个 实例 ,然后 从 外 界 ( 上 自然界 或 一 个 施 教 者) 获得 该 实例 的 正确 分 类 结 
果 。 这 一 场景 可 分 为 两 种 情况 ,一 种 是 学 习 器 在 自然 界 中 进行 实验 (如 造 一 卒 新 桥 , 然 后 让 自 
然 界 决定 其 是 否 诛 因 ) ,或 在 一 个 施 教 者 指导 下 学 习 ( 提 出 一 座 新 桥梁 的 设计 ,然后 让 施 教 者 来 
判断 它 是 否 牢固 ;)。 我 们 这 里 用 坦 询 (guery) 来 代表 学 习 器 建立 的 这 个 实例 ,然后 由 外 界 来 对 
ERR, 

再 次 考虑 图 2-3 中 所 示 的 从 EnjoySport 的 4 个 样 例 中 学 习 到 的 变型 空间 。 这 时 学 习 器 怎 
样 能 提出 一 个 较 好 的 查询 ? 一 般 情 况 下 怎样 采取 一 种 好 的 查询 策略 ?” 显然 ,学 习 器 应 试图 在 
当前 变型 空间 中 选择 假设 ,以 进一步 划分 该 空间 。 因 此 ,需要 选择 的 实例 舌 满 足 : 它 能 被 变型 
空间 中 一 些 假设 分 类 为 正 例 , 男 一 些 分 类 为 反例 。 其 中 一 个 这 样 的 实例 是 : 


( Sunny, Warm, Normal, Light, Warm, Same) 


注意 这 一 实例 满足 变型 空间 的 6 个 假设 中 的 3 个 。 旭 果 施 教 者 将 实例 划分 为 正 例 ,变型 
空间 的 S 边界 就 需要 被 证 化 。 相 反 ,如 果 施 教 者 划分 其 为 反例 , C 边界 需要 被 特 化 。 无 论 哪 
种 情况 ,机 器 将 能 够 学 到 更 客 的 知识 ,以 确定 目标 概念 并 将 变型 空间 缩小 到 原来 的 一 半 。 

一 般 来 说 ,概念 学 习 的 最 优 查询 策略 ,是 产生 实例 以 满足 当前 变型 空间 中 大 约 半 数 的 假 
设 。 这 样 ,变型 空间 的 大 小 可 以 在 遇 到 每 个 新 样 例 时 减 半 ,正确 的 日 标 概念 就 可 在 只 用 
Fog21 VS11 次 实验 后 得 到 。 这 有 点 像 玩 "20 问 "游戏 ,通过 问题 的 是 /和 理 回 答 逐 渐 获 得 问题 的 
RAFE, HL 20 问 游戏 的 策略 是 提 的 问题 最 好 能 把 候选 答案 减 半 。 虽 然 在 图 2-3 的 变型 空间 
中 ,我 们 可 以 生成 一 个 实例 将 其 精确 地 分 半 ,但 一 般 情 况 下 ,可 能 无 法 构造 出 这 样 的 精确 分 半 
的 实例 。 这 样 ,查询 的 数目 可 能 会 大 于 | ogl VSI | 次 。 


2.6.3 怎样 使 用 不 完全 学 习 概 念 


在 上 面 的 例子 中 ,如 果 除 了 4 个 样 例 之 外 没有 更 多 的 训练 样 例 , 但 机 器 现在 要 对 未 见 过 的 
实例 进行 分 类 。 虽 然 图 2-3 的 变型 空间 中 仍 包含 多 个 假设 ,好 目标 概念 还 未 完全 学 习 到 ,但 是 
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MARE OT RE RE PHA eRe, At — oe ,假定 机 器 需要 对 表 26 中 的 4 
个 新 实例 进行 分 类 。 


i ra 


R26 待 分 类 的 新 实例 


Instance Sky Airfemp Humidity Wind Water Forecast EnjoySport 
7 A Sunny Warm Normal Strong Cool Change + l 
B Ramy Cold Normal Light Warm Same k 
C Sunny Warm Normal Light Warm Same 
D Sunny Cold Nermal Strong Warm Same ? 


注意 ,虽然 实例 4 不 在 训练 样 例 中 ,但 当前 变型 空间 中 每 个 假设 ( 见 图 2-3) 都 将 其 分 类 
为 正 例 。 由 于 变型 空间 的 所 有 假设 一 致 同意 实例 4 HE AUR A 划分 为 正 例 的 可 信 
度 , 与 只 有 单个 的 目标 概念 时 一 样 。 不 管 变 型 空间 中 哪个 假设 最 终 成 为 目标 概念 , 它 都 会 将 其 
划分 为 正 例 。 进 一 步 讲 , 我 们 知道 不 需要 列举 变型 宅 间 中 所 有 的 假设 ,就 可 知道 每 个 假设 都 会 
将 其 划分 为 正 例 。 这 一 条 件 在 当 且 私 当 实例 满足 S HETER RAA?) MAE E 
型 空间 中 的 其 他 每 个 假设 都 至 少 比 S 的 某 个 成 员 更 一 般 。 由 我 们 的 more _ general _ than 3E 
义 , 如 果 新 的 实例 满足 S 的 所 有 成 员 , 它 一 定 也 满足 这 些 更 一 般 的 根 设 。 

同样 ,实例 B 被 变型 空间 中 的 每 个 假设 划分 为 反例 ,所 以 这 个 实例 可 被 放心 地 划分 为 反 
例 , 即 使 概念 学 习 是 不 完全 的 。 对 这 一 条 件 进 行 测 试 的 有 效 方 法 是 ,判断 实例 不 满足 6 中 的 
所 有 成 员 ( 为 什么 ?)。 

实例 OC 的 情况 有 所 不 同 。 变 型 空 凶 中 半数 的 假设 划分 其 为 正 例 ,半数 划分 为 反例 。 因 
此 ,学 习 器 无 法 可 信 地 分 类 这 一 样 例 , 除 非 提供 更 多 的 训练 样 例 。 可 以 注意 到 ,实例 C 与 前 -- 
节 提 出 的 一 个 最 优 查 询 相 同 。 这 是 可 以 预见 的 ,因为 最 有 分 类 歧义 性 的 实例 也 一 定 最 能 提供 
新 的 分 类 信息 。 

最 后 ,实例 D 在 变 斤 空间 中 被 两 个 假设 分 为 正 例 ,被 其 他 4 个 假设 分 为 反例 。 这 个 例子 
的 分 类 可 信和 度 比 实例 A 和 如 要 小 。 投 票选 举 要 倾向 于 反例 分 类 ,所 以 我 们 可 以 输出 拥有 最 大 
票数 的 分 类 ,还 可 附带 一 个 可 信和 度 比 例 以 表明 投票 的 倾向 程度 。 在 第 6 章 将 讨论 到 .如 果 假 定 
疾 中 所 有 假设 有 相等 的 先 验 概率 ,那么 投票 的 方法 能 得 到 新 实例 的 最 可 能 分 类 。 进 一 步 赔 ， 
投 正 例 票 假设 所 占 的 比例 可 被 看 作 在 给 定 训练 数据 时 ,实例 为 正 例 的 可 能 性 。 


2.7 HATE 


如 上 所 述 ,在 给 定 正确 的 训练 样 例 并 且 保 证 初始 假设 空间 包含 目标 概念 时 ,候选 消除 算法 
可 以 收 和 伍 到 目标 概念 。 如 果 目 标 概念 不 在 假设 空间 中 怎么 办 ? 是 否 可 设计 一 个 包 合 所 有 假设 
的 空间 来 解决 这 一 困难 ? 假设 空间 的 大 小 对 于 算法 推广 到 未 见 实 例 的 能 力 有 什么 影响 ?” 假设 
空间 的 大 小 对 所 需 训 练 样 例 的 数量 有 什么 影响 ? 这 些 都 是 归纳 推理 中 的 一 些 基本 问题 。 这 里 
我 们 在 候选 消除 算法 中 考察 这 些 问 题 。 然 而 ,此 处 分 析 中 得 到 的 结论 可 以 应 用 于 任意 的 概念 
学 习 系 统 。 


2.7.1 一 个 有 偏 的 假设 空间 
如 果 想 保证 假设 空间 包含 目标 概念 ,一 个 明显 的 方法 是 扩大 假设 空间 ,使 老 个 可 能 的 假设 
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都 被 包含 在 内 。 再 一 次 使 用 EnjoySpert 这 个 例子 ,其 中 我 们 将 俄 设 空间 限制 为 只 包含 属性 值 
的 合肥 。 由 于 这 一 和 限制 ,假设 空间 不 能 够 表示 最 简单 的 析 取 形式 的 目标 概念 ,如 "Sky = Sunny 
或 Sky = Cloudy” o EERE, WRR EAT = AIEA, CIEE TAARAB, RIA 
法 将 得 到 一 个 空 的 变型 空间 。 








Example Sky Air Temp Humidity Find Water Forecast EnjoySport 
m l Sunny Warm Normal Strong Cool Change- Yes 
2 Cloudy Warm Normal Strong Coal Change Yes 
3 Raty Warm Normal Strong Cool Change No 


之 所 以 不 存在 与 这 3 个 样 例 一 致 的 假设 的 原因 是 ,与 前 两 个 样 例 一 致 ,并 且 能 在 给 定 假 设 
空间 H 中 表示 的 最 特殊 的 假设 是 : 
S2: (7, Warm, Normal, Strong, Cool, Change) 
这 一 假设 虽然 是 H 中 与 样 例 一 致 的 最 特殊 的 假设 , 它 仍然 过 于 一 般 化 了 ; 它 将 第 3 个 样 
例 错 误 地 划 为 正 例 。 问 题 在 于 ,我 们 使 学 习 占 偏向 于 只 考 虚 合 取 的 假设 ,这 里 需要 表示 能 力 型 
强 的 假设 空间 。 


2.7.2 ARFI 


很 显然 ,为 了 保证 目标 概念 在 假设 空间 中 ,需要 提供 一 个 假设 空间 , 它 能 表达 所 有 的 可 教 
BLE (every teachable concept) e 挽 育 之 , 它 能 够 表达 实例 集 的 所 有 了 可 能 的 子 集 。 一 般 我 
们 把 集合 X 的 所 有 子 集 的 集合 称 为 X 1H R( power set). 

例如 在 EnjoySport 学 习 任务 中 ,使 用 6 种 属性 描述 的 实例 空间 X 的 大 小 为 %。 在 这 一 
ABS LASER SRR? 换言之, 的 材 集 大 小 是 什么 ? 一 般 席 来 在 集合 关上 定义 的 
相 子 集 数目 ( 即 蕊 赫 集 的 大 小 ) 为 2381, 其 中 1 工 | 是 工 的 元 素数 目 。 因 此 在 这 一 实例 空间 上 可 
定义 2 ,或 大 约 是 10” 个 不 同 的 目标 概念 ,这 也 是 学 习 器 所 需要 学 习 的 目标 概念 数 日 。 国 忆 
2.3 节 中 合 取 假设 空间 只 能 表示 973 个 假设 一 一 实在 是 一 个 偏 置 很 大 的 假设 空间 1 

现在 将 EnjoySport 学 习 任 务 重新 定义 为 一 种 无 偏 的 形式 。 方 法 是 定义 一 个 新 的 假设 空 
E ', 它 能 表示 实例 的 每 一 个 子 集 ,也 就 是 把 H' 对 应 到 XX ORR, EX H 的 一 种 办 法 是 ,多 
许 使 用 前 面 的 假设 的 任意 析 取 , 合 取 和 否定 式 。 例 如 目标 概念 “Sky = Sunny 或 Sky = 
Cloudy "可 被 描述 为 : 

(Sunny, 27,2, T, 7, 7) V (Cloudy, 2,27, ?, ?, ?) 

给 定 这 样 的 假设 空间 ,我 们 就 可 以 安全 地 使 用 候选 消除 算法 ,而 不 必 担 心 无 法 表达 目标 概 
念 。 然 而 ,虽然 这 个 假设 空间 排除 了 表达 能 力 的 问题 , 它 又 产生 了 一 个 新 的 ,同样 困难 的 间 题 ; 
概念 学 习 算 法 将 完全 无 法 从 训练 样 例 中 证 化 1 其 原因 如 下 ,假定 我 们 给 学 习 占 提供 了 3 个 正 
(xs, r URAT RP ( xx)。 这 时 ,变型 空间 的 $ 边界 包含 的 假设 正好 是 三 个 正 例 
的 析 取 : 

| 

因为 这 是 能 覆盖 3 个 正 例 的 最 特殊 假设 。 相 似 地 , © 边界 将 由 那些 刚好 能 排除 挤 反 例 的 

那些 假设 组 成 。 
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问题 在 于 ,在 这 一 非常 具有 表达 力 的 假设 表示 方法 中 , S 边界 总 是 所 有 正 例 的 析 取 式 , G6 
边界 总 是 所 有 反馈 的 析 取 的 否定 式 。 这 样 能 够 由 S AG 无 歧义 地 分 类 的 ,只 有 已 风 到 的 训练 
样 例 本 号 。 要 想 获 得 单个 号 标 福 念 , 就 必须 提供 X 中 所 有 的 实例 作为 训练 样 例 。 

看 起 来 避免 这 一 问题 的 方法 可 以 使 用 此 部 分 学 习 的 变型 室 间 ,并 像 在 2.6.3 节 中 讨论 的 
那样 由 变型 空间 的 所 有 成 员 投 票 。 遗 憾 的 是 ,能 够 产生 一 致 投票 的 只 有 那些 已 见 过 的 训练 样 
例 、 对 其 他 的 实例 ,投票 没有 任何 效果 :每 一 个 未 拖 过 的 实例 都 会 被 变型 空间 中 刚好 半数 的 假 
设 划分 为 正 例 ,而 被 另 一 半 划 分 为 反例 (为 什么 ?)。 原 因 如 下 , 若 HH 是 X OB T 是 某 个 
来 出 现 过 的 实例 , 则 对 于 变型 空间 中 一 覆盖 x 的 假设 4, 必然 存在 另 一 假设 R, ECS LSE 
等 ,只 不 过 对 x 的 分 类 和 不同。 而 且 ,如果 上 在 变型 空间 中 ,那么 如 也 在 ,因为 它 对 于 已 往 训 练 
样 例 的 划分 与 有 完全 一 样 。 


2.7.3 无 偏 学 习 的 无 用 性 


以 上 的 讨论 说 明了 归纳 推理 的 一 个 基本 属性 :学 习 器 如 果 不 对 目标 概念 的 形式 微 预先 的 
假定 , 它 从 根本 上 无 法 对 未 见 实 例 进行 分 类 。 实 际 上 在 我 们 原来 的 EnjoySport 任务 中 ,候选 
消除 算法 能 够 从 训练 样 例 中 汉化 ,其 惟一 的 原因 就 是 它 是 有 偏 的 , 它 隐 含 假定 了 目标 概念 可 以 
出 属性 值 的 合 取 来 表示 。 如 果 这 一 假定 正确 (并 且 训 练 数 据 无 错 ), 对 于 新 实例 的 分 类 也 会 是 
正确 的 。 但 如 果 这 个 假定 不 正确 ,候选 消除 算法 肯定 会 错误 地 分 类 天 中 的 茶 些 实例 。 

由 于 归纳 学 习 需 要 某 种 形式 的 预先 假定 ,或 称 为 归纳 偏 置 (inductive bias)? ,我们 可 以 用 
归纳 偏 置 来 描述 不 同学 习 方法 的 特征 。 现 在 来 精确 地 定义 归纳 偏 置 。 这 里 要 获取 的 关键 思想 
在 于 ,学 习 肯 在 从 训练 样 例 中 泛 北 并 推断 新 实例 的 分 类 过 程 中 所 采用 的 策 格 。 因 此 ,考虑 一 般 
情况 下 任意 的 学 习 算 法 工 以 及 为 任意 目标 概念 e 提供 的 任意 训练 数据 D, =x, elx) to I 
练 这 程 结束 后 ,上 需要 对 新 的 实例 x; 进行 分 类 。 邻 L(xi，D,) 表 示 在 对 训练 数据 D, 学习 后 
LET x; 的 分 类 ( 正 例 或 反例 ) ,我 们 可 以 如 下 描述 L 所 进行 的 这 一 归纳 推理 过 程 : 

(D, Ax) > Lix, D.) 

这 里 的 记号 y> z 表示 z My 归纳 推理 得 到 ,例如 ,如 果 令 上 为 候选 请 除 算法 , D., AX 2- 
1 中 的 训练 数据 ,x; 为 表 2-6 中 第 一 个 实 俩 , 则 归纳 推理 可 得 到 结论 上 (x;，D.) = ( EnjoyS- 
port = yes )o 

由 于 上 是 一 归纳 学 习 算 法 , 则 一 般 情 况 下 L(x;，D.) 这 一 推论 出 的 结果 正确 性 无 法 证 
明 ; 也 就 是 说 ,分 类 L(x;，D.) 并 非 从 训练 数据 D. 和 新 实例 x; PHAM A. TPE. 
要 在 D. 信 x; 上 附加 怎样 的 前 提 , 以 使 L(x;, D,) 能 演绎 派生 。 我 们 定义 上 的 归纳 偶 置 为 这 些 
附加 前 提 的 集合 。 更 精确 地 说 ,我 们 定义 工 的 归纳 偏 置 为 前 提 集 合 B8, 使 所 有 的 新 实例 xi W 
Æ: 

(BAD Ax) | L€x;, D) 


这 里 的 记号 y Hz 表示 z My 演绎 派生 (follow deductively, 或 z 可 以 由 y 证 明 得 出 )。 这 


Da iad 


局 “这 里 的 术语 归纳 偏重 (induetive bias)} 不 要 和 统计 学 中 普遍 使 用 的 估计 偏差 (estimation bias) 混 滑 。 估 计 偏 差 将 在 第 
5 章 讨 论 。 
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A ,我 们 定义 学 习 吕 的 归纳 备 置 为 附加 的 前 提 集 合 8, 通 过 8 充分 地 使 妇 纳 推理 由 演绎 推理 
来 论证 。 以 下 是 该 定义 的 总 结 : 

定义 :考虑 对 于 实例 集合 三 的 概念 学 习 算 法 工 。 令 ec 为 X 上 定义 的 任 一 概念 ,并 令 及 = 
ica, elx) >A e 的 任意 训练 样 例 集 合 。 令 上 (x;，D,) 表 示 经 过 数据 D, WU LAS 
实例 二 的 分 类 。 工 的 归纳 偏 置 是 最 小 断言 集合 号 , 它 使 任意 目标 概念 e 和 相应 的 训练 样 例 D, 


满足 ， 
Cyn CBADAx) F L(x;, D.)) (2.1) 


那么 ,候选 消除 算法 的 归纳 篇 置 是 什么 呢 ? 首先 确定 这 一 算法 的 L D.) :给 定数 据 集 
D, ,候选 消除 算法 首先 计算 变型 空间 VS, pn , 然 后 在 变型 空间 所 包含 的 假设 中 投 昧 ,进行 新 实 
fil x, 的 分 类 。 这 里 假定 产生 xi 的 分 类 的 条 件 且 投票 一 致 为 正 或 为 负 , 和 否则 不 进行 分 类 。 现 
在 来 回答 什么 是 候选 消除 算法 L(x;，D,) 的 归纳 偏 置 的 问题 ;很 简单 ,就 是 COW 这 个 前 所， 
有 了 这 一 前 提 , 候 选 消除 算法 所 执行 的 每 一 归纳 推理 都 可 以 被 演绎 论证 。 

现在 看 一 看 为 什么 L(x;，D,) 这 一 分 类 可 由 B= {cE HI ,数据 D, 和 实例 x; HAA. 
先 ,注意 如 果 假 定 cz 各 吾 , 那 么 可 演绎 派 牛 出 cE VSy pn.。 这 一 派生 的 条 件 除 cE 五 .还 包括 变型 
空间 VSy, oe CE H FS DD 一致 的 所 有 假设 集合 ) 以 及 对 D.= ix, efx) AE XR 
目标 概念 一 致 的 训练 数据 )。 其 次 ,由 于 L(x,，D,) 是 一 分 类 , 它 定义 为 变型 空间 中 上 所 有 假设 的 
一 致 投票 。 因 此 ,如 果 上 输出 分 类 L(x;，D,) ,那么 YSa 关 中 每 一 假设 必 将 产生 间 样 的 分 类 , 包 
括 假设 cE VSy ms 因此 efxi) = 上 (x;， 也.) 候选 消除 算法 的 归纳 篇 置 概 括 说 明 如 下 . 

异 选 消除 算法 的 归纳 偏 置 :目标 概念 c 包含 在 给 定 的 假设 空间 后 中。 

图 2-8 为 一 示意 图 和 解 。 上 面 的 图 显示 候选 消除 算法 有 两 个 输入 :训练 样 例 和 待 分 类 的 新 
实例 。 下 面 的 图 为 一 演绎 定理 证 明 器 , 它 的 输 人 包括 闻 样 的 两 组 数据 ,再 加 上 汤 言 “8 包含 目 
标 概 念 ”"。 这 两 个 系统 对 所 有 可 能 的 训练 样 例 输 入 和 A 中 可 能 的 新 实例 输入 产生 相同 的 输 
出 。 当 然 ,在 定理 证 明 器 中 显 式 输 人 的 归纳 篇 置 只 是 隐 含 在 候选 消除 算法 的 代码 中 。 在 某 种 
意义 上 ,归纳 偏 置 只 在 我 们 的 印象 中 存在 ,但 它 确实 是 能 被 完整 定义 的 断言 集合 。 

将 归纳 推理 系统 看 作 是 包含 了 归纳 偏 置 , 好 处 在 于 它 提 供 了 一 种 非 程 将 化 的 描述 手段 ,以 
描述 学 习 吕 从 观 蹇 到 的 数据 中 进行 泛 化 的 策略 。 其 次 它 还 可 以 对 归纳 偏 置 强度 不 同 的 学 习 鹃 
进行 比较 。 例 如 ,考虑 以 下 3 个 学 习 算 法 , 按 其 有 偏 程度 从 弱 到 强 进行 排序 : 

1) 机 械 式 学 习 器 (ROTE-LEARNER) :简单 地 将 每 个 观察 到 的 训练 样 例 在 储 下 来 ,后 续 的 

实例 的 分 类 通过 在 内 存 中 匹配 进行 。 如 果实 例 在 内 存 中 找到 了 ,存储 的 分 类 结果 被 输 
上 出。 否则 系统 拒绝 进行 分 类 。 

2) 候选 消除 算法 :新 的 实例 只 在 变型 空间 所 有 成 员 都 进行 同样 分 类 时 才 输 出 分 类 结果 ， 

否则 系统 拒绝 分 类 。 

3) FIND-S: 如 前 所 述 ,这 一 算法 寻找 与 训练 样 例 一 致 的 最 特殊 的 假设 , 它 用 这 一 假设 来 分 

类 后 续 实 例 。 

机 械 式 学 习 器 没有 归纳 侦 置 。 对 于 新 实例 所 做 的 分 类 能 从 已 观察 到 的 训练 样 例 中 演绎 派 
生 ,不 需要 附加 前 提 。 候 选 消 除 算法 有 较 强 的 归纳 偏 置 : 即 目标 概念 贫 在 假设 空间 中 才能 表 
示 。 由 于 它 是 有 贪 的 ,所 以 能 够 对 机 械 式 学 习 只 不 能 分 类 的 实例 进行 分 类 。 当 然 分 类 的 正确 
性 也 完全 依 球 于 归纳 偏 置 的 正确 性 。FiNp-S 算法 有 更 强 的 归纳 偏 置 ,除了 假定 目标 概念 须 在 
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假设 空间 中 , 它 还 有 另 一 独 外 的 归纳 偏 置 前 提 : 任 何 实 例 ,除非 它 的 逆 实 例 可 由 其 他 知识 逻辑 
推出 ,否则 它 为 反例 
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使 用 假设 空间 A 的 候选 消除 算法 的 输 和 人 输出 行为 ,等 价 于 利用 了 断言 H AA Be” E E E E o 
该 断言 因此 被 称 为 候选 消除 算 靶 的 妇 站 坊村 。 用 归纳 偏 置 来 刻 珊 归纳 系统 ,可 以 合 于 使 用 等 价 的 演绎 系统 来 
模 扳 它们 。 这 提供 了 一 种 对 妇 纳 系统 进行 比较 的 卢 法 , 即 通过 它 休 从 训练 整 据 中 这 化 的 策 覆 


图 2-8 用 等 价 的 演绎 系统 来 模拟 归纳 系统 


在 研究 其 他 的 归 钠 推理 方法 时 ,有 必要 牢记 这 种 归纳 偏 置 的 存在 及 其 强度 。 一 种 算法 如 
果 有 偏 性 越 强 , 那 它 的 归纳 能 力 越 强 , 可 以 分 类 更 狗 的 未 见 实例 。 某 些 归 纳 偏 置 是 对 类 别 的 假 
定 , 以 确定 目标 概念 的 范围 。 如 “假设 空间 H 包含 目标 概念 "。 其 他 的 妇 纳 候 置 只 是 对 假设 进 
行 排序 ,以 描述 偏好 程度 ,比如 * 优 向 于 特殊 假设 ,而 不 是 一 般 假 设 。 某 些 偏 置 隐 含 在 学 习 器 中 
不 可 更 改 , 如 这 里 所 讨论 的 例子 。 在 第 11 章 和 第 12 章 可 以 看 到 明确 表示 归纳 偷 置 的 系统 , 它 
们 将 偏 置 表示 为 断言 的 集合 并 可 由 学 习 关 操纵 。 


2.8 ”小结 和 朴 充 读物 


本 章 的 村 点 包括: 

se 概念 学 习 可 看 作 是 搜索 预定 义 洪 在 假设 空间 的 过 程 。 

o 假设 的 一 般 到 特殊 偏 序 结构 可 以 定义 在 任何 概念 学 习 问 题 中 , 它 提供 了 一 种 有 用 的 结 
构 以 便于 假设 空间 的 搜索 。 

è FIND-S 算法 使 用 ~~ 般 到 特殊 序 , 在 偏 序 结 构 的 一 个 分 支 上 执行 一 般 到 特殊 搜索 ,以 寻找 
与 样 例 一 致 的 最 特殊 假设 。 

e 候选 消除 算法 利用 一 般 到 特殊 序 ,通过 渐进 地 计算 极 大 特殊 假设 集合 5 和 极 大 一 般 候 
WHE 6 计算 变型 空间 ( 即 所 有 与 训练 数据 一 至 的 假设 集 )。 


全 ”注意 最 后 面 这 个 归纳 信 量 根 定 , 它 包 含 了 某 种 欧 认 推 理 , 或 非 单调 推理 。 
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s 由 于 3 和 2 从 整个 假设 集合 中 划分 出 了 与 训练 数据 一 致 的 那 部 分 集合 ,它们 提供 了 一 
种 描述 定位 目标 概念 中 的 不 确 诈 性 的 方法 。 含 有 多 个 假设 的 变型 空间 可 以 用 来 判断 学 
习 器 是 否 已 收 仇 到 了 目标 概念 ;判断 圳 练 数据 是 否 不 一 致 ;产生 查询 以 进一步 精 化 变型 
罕 间 以 及 确定 未 多 过 的 实例 是 否 能 几 不 完全 学 习 到 的 概念 来 无 旷 尽 地 分 类 。 
e 变型 空间 和 候选 消除 算法 为 研究 概念 学 习 提 供 了 一 种 有 用 的 框架 ,然而 这 一 算法 缺少 
健壮 性 ,特别 是 在 遇 到 有 嵘 声 的 数据 以 及 目标 概念 无 法 在 假设 空间 中 表示 的 情况 时 . 
第 10 音 描 述 了 几 种 基于 一 般 到 特殊 序 关 系 的 概念 学 习 算 法 ,它们 能 够 处 理 有 只 声 数 
据 。 
归纳 学 习 算法 能 够 对 未 多 数据 进行 外 类 .是 因为 它们 在 选择 一 致 的 假设 的 过 程 中 隐 含 
的 归纳 偏 置 。 候 选 消除 算法 中 的 偏 置 为 :目标 概念 可 以 在 假设 空间 中 找到 {eE HW), Bi 
出 的 假设 和 对 后 续 实 例 的 分 类 可 由 这 一 前 提 及 训练 样 例 演绎 推出 。 
e 如 果 假 设 空间 苓 扩展 ,使 对 应 实例 集 的 每 一 个 子 集 (实例 的 帘 集 ) 都 有 一 个 假设 ,将 使 候 
选 消除 算法 中 的 归纳 情 置 消失 。 然 而 ,这 也 将 消除 其 对 新 实例 分 类 的 能 力 。 无 仿 的 学 
习 器 无 法 对 未 见 样 例 进行 归纳 。 
概念 学 习 以 及 使 用 一 般 到 特殊 序 的 相关 研究 由 来 巨 久 。Brner et al.(1957) 早 就 研究 了 
人 类 的 概念 学 习 , 而 Hunt & Hovland(1963) 将 其 自动 化 ，Winston{1970) 的 著名 的 博士 论文 
中 将 概念 学习 看 作 是 包含 泛 化 和 特殊 化 操作 的 搜索 过 程 。Plotkin( 1970，1971) 较 早 地 提供 了 
形式 化 的 more _general than 关系 以 及 一 个 相关 的 概念 下 包容 (在 第 10 REPUTE). Simon 
和 Leat1973) 将 学 习 的 这 程 看 作 是 在 假设 空间 中 搜索 的 过 程 。 其 他 一 些 较 早 的 概念 学 习 系 统 
包括 :Popplestone 1969, Michalski 1973 .Buchanan 1974. Vere 1975. Hayes-Roth 1974, 大量 的 基 
于 符号 表示 的 概念 学 习 算 法 已 被 开发 出 来 . 第 10 章 描述 了 几 种 近期 的 概念 学 习 算 荡 ,包括 用 
-- 阶 逻辑 表示 的 概念 学 习 算 法 NHR REA BEWARE ,以 及 当日 标 概念 无 法 在 学 习 器 
的 假设 空间 中 表示 时 能 较 好 地 降级 学 习 的 算法 。 
变型 空间 和 候选 消除 算法 由 Mitchell (1977, 1982) 提 出 ,这 一 算法 已 应 用 于 质谱 分 析 
( mags spectroscopy) 中 的 规则 推理 ( Mitchell 1979) 以 太庙 用 于 学 习 搜 索 控 制 规则 ( Mitchel! et 
al. 1983)。Hauasler(1988) 证 明 ,即使 当 假 设 空间 只 包 会 简单 的 特征 合 取 时 ,一 般 边 界 的 大 小 
随 训练 样 例 的 数 日 成 指数 增长 。Smith & Rosenbloom( 1990) 提 出 对 G 集合 的 表示 进行 简单 的 
和 更改, 以 改进 其 特定 情况 下 的 复杂 性 , Hirsh( 1992) 提 出 在 某 些 情况 下 不 存储 CG 集合 时 学 习 过 
ARAM AMSA BR. Subramanian & Feigenbaum(1986) 讨 论 了 特定 情况 下 通过 分 解 
变型 空间 以 生成 有 效 查 询 一 种 方法 。 候 选 消除 算法 的 一 个 最 大 的 实际 限制 是 它 要 求 训练 数据 
是 无 也 声 的 。Mitchell(1979) 描 述 了 该 算法 的 一 种 扩展 , 以 处 理 可 预见 的 有 限 数 量 的 误 分 类 样 
例 ,Hirsh(1990，1994) 提 出 一 种 良好 的 扩展 以 处 理 具 有 实数 值 属 性 的 训练 样 例 中 的 有 限 品 
E, Hirshi 1990) 描 述 了 一 种 递增 变型 空间 人 台 并 算法 , 它 将 候选 消除 算法 扩展 到 能 处 理由 不 同 
类 型 的 值 约 东 表示 的 训练 信息 。 来 自 每 个 约束 的 信息 由 变型 空间 来 表示 ,然后 用 交 登 变型 空 
间 的 办 法 合并 这 些 约束 。Sehag( 1994，1996) 展 示 了 一 种 被 称 为 析 取 变型 空间 的 方法 来 从 有 
品 声 数据 中 学 习 析 取 概 念 。 从 每 个 正 例 中 学 到 一 个 分 立 的 变型 空间 ,然后 用 这 不 同 变 型 空间 
进行 投票 以 分 类 新 实例 。 她 在 儿 个 问题 领域 进行 了 实验 ,得 出 她 的 方法 同 其 他 广泛 使 用 的 归 
纳 方 法 有 同样 良好 的 性 能 ,如 决策 树 和 和 天 近邻 方法 。 
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2.1 解释 为 什么 EnjoySpori 学 习 尾 务 的 假 估 空间 的 大 小 为 973。 如 果 增 加 一 属性 Water- 
Current ,可 取 值 Light . Moderate 和 Strong ,那么 可 能 的 实例 数 和 可 能 的 假设 数 将 会 增 
加 多 少 ? 推广 到 一 般 , 增 加 一 新 属性 4 ,有 种 取 值 ,实例 数 和 假设 数 将 会 增加 多 少 ? 

2.2 在 候选 消除 算法 中 ,如 果 训 练 样 例 按 表 2-1 中 的 逆序 出 现 , 请 分 步 给 出 5 和 边界 集 
合 。 虽 然 不 论 样 例 出 再 腊 序 如 何 ,最 终 的 变型 空间 相同 (为 什么 ?), 在 中 间 步 驰 中 得 到 的 
SHG 仍 依 赖 于 该 顺序 。 是 否 有 办 法 对 训练 样 例 排序 ,以 使 EnjoySport 例子 中 的 所 有 
SAG REM PARAS AM AB)? 

2.3 继续 考虑 EnjoySport 学 习 任 务 和 2.2 节 中 描述 的 假设 空间 A, MRE MTR BI 
空间 FECR H#H 中 所 有 假设 的 成 对 析 取 。 如 8' 中 一 假设 为 : 

(7, Cold, High, ?,?, 7) V (Sunny, ?, High, ?, 7, Same ) 

TR 32s FE AB ie 28 TB)’ 的 候选 消除 算法 ,给 定 的 训练 样 例 如 表 2-1 ras ES 
步 列 出 SME RB). 

2.4 很 定 一 实例 空间 包含 x,y 平面 中 的 整数 点 ,假设 集合 为 矩形 集 。 更 精确 地 ,假设 的 
形式 为 agreab, cayad, HP a,b,c,d 为 任意 整数 。 
(a) SRT FAIRER + ) 和 反例 ( - ) 集 合 的 变型 空间 , 它 的 SARITA? S 

出 其 中 的 假设 并 在 图 中 画 出 。 





(HEAS HH & 边界 是 什么 , 写 出 其 中 的 假设 并 在 图 中 画 出 。 

(o) 假 定 学 习 器 可 提出 一 个 新 实例 (xz ，y) ,并 要 求 施 教 者 进行 分 类 。 试 给 出 一 个 查询 ， 
无 论 施 教 者 怎样 分 类 都 能 保证 减 小 变型 空间 。 再 给 出 一 个 不 能 保证 的 查询 。 

(d) 作 为 施 教 者 ,如 果 想 让 学 习 器 学 习 一 特定 的 自 标 概念 (如 3< 5 2c y a9), We 
候选 消除 算法 完全 学 习 到 目标 概念 ,需要 提供 的 的 训练 样 例 数 日 最 小 是 多 少 ? 

2.5 请 看 以 下 的 正 例 和 反例 序 例 , 它 们 描述 的 概念 是 "两 个 住 在 同一 房间 中 的 人 ”。 每 个 训练 
样 例 描 述 了 一 个 育 序 对 ,每 个 人 由 其 性 别 .头发 颜色 (black、browa 或 blonde) ,4 Ri (tall, 
medium # shor) UA ESUS, French, German, Irish, Indian, Chinese ay Portuguese) a 
+ {male brown tall US), { female black short US?) 

+ ((male brown short French), { female black short US}? 
- (( female brown tall German), 《 female black short Indian)? 
+ male brown tall Irish), ( female brown short Irish>) 
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2.9 


考 虚 在 这 些 实例 上 定义 的 假设 空间 为 :所 有 假设 以 一 对 4 元 组 表示 ,其 中 每 个 值 约 东 与 
EnjoySport 中 的 假设 表示 相似 ,可 以 为 :特定 值 ,"?" 或 者 "8"。 例如 ,下 面 的 假设 : 
(( male ? ta ? > ( female 9 3 French>) 

它 表示 了 所 有 这 样 的 有 序 对 :第 一 个 人 为 高 个 男性 (国籍 和 发 色 任 意 ), 第 二 个 人 为 法 国 

CTE AE AS AER). 

(a) 根据 上 述 提供 的 训练 样 便 和 假设 表示 ,手动 执行 候选 消除 算法 。 特 别 是 要 写 出 处 理 

了 每 一 个 训练 样 例 后 变型 空间 的 特殊 和 一 般 边 界 。 

(b} 计 算 给 定 的 假设 空间 中 有 和 多少 假设 与 下 面 的 正 例 一 致 ; 

+ (€male black short Portuguese } ( female blonde tall Indian >) 

《cj 如 果 学 习 器 只 有 一 个 训练 样 例 , 如 (b) 中 所 示 BE eS) HE HS 
出 其 分 类 。 求 出 一 个 特定 的 查询 序列 ,以 保证 学 习 天 收 敏 到 单个 正确 的 假设 ,而 不 论 
该 假设 是 哪 一 个 (假定 目标 概念 可 以 使 用 纵 定 的 假设 表示 语言 来 描述 )。 求 出 最 短 的 
查 刚 序列。 这 一 序列 的 长 度 与 问题 (bj) 的 答案 有 什么 关联 ? 

(d) 注 意 到 这 里 的 假设 表示 语言 不 能 够 表示 这 些 实例 上 的 所 有 机 念 (如 我 们 可 定义 出 一 
系列 的 正 例 和 反例 ,它们 并 没有 相应 的 可 描述 假设 )。 如 果 要 扩展 这 一 语言 ,使 其 能 
够 表达 该 实例 语言 上 的 所 有 概念 ,那么 {ce) 的 答案 应 该 如 何 更 改 。 

完成 变型 空间 表示 定理 的 证 明 ( 定 理 2.1)。 

考 虚 一 个 概念 学 习 问 题 ,其 中 每 个 实例 为 一 实数 ,而 每 个 假设 为 实数 中 的 某 个 区 间 。 精 

确 地 定义 为 :假设 空间 E 中 的 每 个 假设 形式 为 a < x < 5 ,其 中 a b 为 任意 实 常 数 ,x 代 

表 该 实例 。 例 如 4.5< <<6.1 这 个 假设 将 4.5 和 6.1 之 间 的 实例 划分 为 正 例 ,其 他 为 

反例 。 简 要 解释 为 什么 不 存在 一 个 对 任意 正 剑 集合 都 一 致 的 最 特殊 假设 。 试 修改 假设 

的 表示 方法 以 避免 这 一 缺点 。 

本 章 中 指出 如 果 纵 定 一 个 无 偏 移 假设 空间 ( 即 实 例 的 其 集 ) ,学 习 器 将 发 现 每 一 个 未 观察 

的 实例 将 刚好 与 变型 空间 中 半数 的 成 员 匹 配 ,而 不 论 已 经 过 了 沪 样 的 训练 样 例 。 证 明 这 

一 和 结论。 确切 地 讲 , 证 明 对 于 任意 实例 空间 和 ,任意 训练 样 例 集 D 及 任意 不 包 售 在 DD 

PAA 2 CX, MR BY RRA Vss PRB ERY RH x 划分 为 正 

例 , 另 外 半数 划分 为 反例 。. 

有 一 学 习 问 题 ,其 中 每 个 实例 都 由 n 个 布尔 值 属性 a，a2，..，, a， 的 合 取 来 描述 。 因 

此 ,一 个 典型 的 实例 如 下 : 

(a,=T)Ala,=F)A...ACa,=T) 
现 考 赎 一 个 假设 空间 8 中 ,每 个 假设 是 这 些 属 性 约束 的 析 取 ,例如 ; 
(a,=T)V(as2F)V(e7= T) 
设计 一 算法 , 它 经 过 一 系列 的 样 例 训练 后 输出 一 个 一 致 的 假设 (如 果 存 在 的 话 )。 算 法 的 
时 间 要 求 为 n 和 训练 样 例 数目 的 多 项 式 函 数 。 


2.10 实现 FInp-S 算法 。 首 先 ,验证 它 可 成 功 地 产生 2.4 节 中 EnjoySport 例 志 中 各 步骤 络 


果 。 然 后 使 用 这 一 程序 ,研究 为 了 学 习 到 确切 的 目标 概念 所 需 的 随机 训练 样 例 数目 。 
实现 一 训练 样 例 生 成 器 来 生成 这 些 随机 的 实例 ,再 用 下 面 的 目标 概念 产生 分 类 结果 : 


(Sunny, Warm ,?,?,?,2) 
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试用 随机 产生 的 样 例 训 练 你 的 Finn-S AARNE ita BE Se DRE AA AE AB 入 
日 标 概念 相等 。 能 和 否 预 测 所 需 的 平均 样 例 数 晶 ”运行 该 实验 20 次 并 报告 所 而 样 例 的 
平均 数 。 这 - -数目 会 怎样 顺 着 目标 概念 中 的 “79 "数目 而 变动 ? 以 及 它 会 怎样 蝴 兰 实例 
或 假设 中 属性 的 数目 而 变动 ? 
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BIS 决策 树 学 习 


决策 香 学 习 是 应 用 最 广 的 归纳 推理 算法 之 一 。 它 是 一 种 通 近 离散 值 函 数 的 方法 ,对 噪声 
数据 有 很 好 的 健壮 性 且 能 够 学 习 析 取 表 达 式 。 本 章 描述 了 一 系列 决策 树 学 习 算 法 ,包括 如 
ID3 ASSISTANT 和 C4.5 这 样 广 为 应 用 的 算法 。 这 些 决 策 树 学 习 方 法 搜索 一 个 完整 表示 的 
假设 空间 ,从 而 避免 7” 受 限 假 设 空间 的 不 足 。 决 策 树 学 习 的 归 编 偏 置 是 优先 选择 较 小 的 树 。 


3.1 简介 


决策 树 学 习 是 一 种 逼近 离散 值 目 标 函 数 的 方法 ,在 这 种 方法 中 学 习 到 的 函数 被 表示 为 一 
棵 决策 树 。 学 习 得 到 的 决策 树 也 能 再 被 表示 为 多 个 if-then 的 规则 ,以 提高 可 读 性 。 这 种 学 习 
算法 是 最 流行 的 归纳 推理 算法 之 一 ,已 经 被 成 功 地 应 用 到 从 学 习 医 疗 诊断 到 学 习 坪 信贷 短 申 
请 的 信用 风险 的 三 阔 领 域 。 


3.2 决策 树 表 示 法 


决策 树 通 过 把 实例 从 根 结 点 排列 (sort) 到 某 个 叶子 结 点 来 分 类 实例 ,叶子 结 点 即 为 实例 
所 属 的 分 类 。 树 上 的 每 一 个 结 点 说 明了 对 实例 的 某 个 属性 (attribute) 的 测试 ,并 且 该 结 点 的 每 
一 个 后 继 分 支 对 应 于 该 属性 的 一 个 可 能 值 。 分 类 实例 的 方法 是 从 这 棵 树 的 根 续 点 开始 ,测试 
这 个 结 点 指定 的 属性 ,然后 按照 给 定 实例 的 该 属性 值 对 应 的 树枝 向 下 移动 。 然 后 这 个 过 程 在 
以 新 结 点 为 根 的 子 树 上 重复 。 

图 3-1 画 出 了 一 棵 典型 的 学 习 到 的 决策 树 。 这 棵 决策 树 根 据 天 气 情况 分 类 “星期 六 上 午 
是 否 适 合 打 网 球 "。 例 如 ,下 面 的 实例 将 被 沿 着 这 棵 决策 树 的 最 左 分 支 问 下 排列 ,因而 被 判定 
为 反例 (也 就 是 这 棵 树 预 测 这 个 实例 PlayTennis = No}. 


High Normal Strong Weak 


\ / \ 


No Yes No Yes 


分 类 一 个 样 例 的 方法 是 ,将 其 沿 根 结 点 排列 到 合适 的 叶子 结 点 ,然后 退回 SPH THAR TASH 
4y Ves 或 wo)。 这 棵 决策 树 根据 天 气 分 类 * 星 期 六 上 午 是 理 适 合 打 网 球 - 


图 3-1 概念 PlayTennia 的 决策 树 
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( Outlook = Sunny, Temperature = Hot, Humidity = High, Wind = Strong? 

ORR LL Be 3-2 中 用 来 演示 ID3 学 习 算 法 的 例子 摘自 (Quinlan 1986). 

通常 决策 树 代 表 实 例 属 性 值 约束 的 合 取 (conjunction) 的 析 取 式 (disjunction)。 从 树 根 到 树 
叶 的 每 -条 路 径 对 应 一 组 腐 性 测试 的 合 取 , 树 本 身 对 应 这 些 合 取 的 析 取 。 例 如 ,图 3-1 表示 的 
决策 树 对 应 于 以 下 表达 式 ; 

( Outlook = Sunny A Humidity = Normal) 
V { Outlook = Overcast ) 
V ( Outlook = Rain A Wind = Weak) 


3.3 决策 树 学 习 的 适用 问题 


尽管 已 经 开发 的 种 种 决策 树 学 习 算 法 有 这 样 或 那样 不 太一 致 的 能 力 和 变 求 ,通常 决策 树 
学 习 最 适合 具有 以 下 特征 的 问题 : 

昌 实例 是 由 "属性 - 值 " 对 (pair) 表 示 的 ; 实例 是 用 一 系列 固定 的 该 性 (例如 , Temperature ) 

和 它们 的 值 (例如 , fot) 来 描述 的 。 在 最 简单 的 决策 树 学 习 中 ,每 一 个 属性 取 少 数 的 离 
散 的 值 (例如 , Hot, Mild 、Cold)。 然 而 ,扩展 的 算法 (在 3.7.2 节 中 讨论 ) 也 允许 处 理 值 
域 为 实数 的 属性 (例如 ,数字 表示 的 温度 )。 

@ 目标 函数 具有 离散 的 给 出 值 : 图 3-1 的 决策 树 给 每 个 实例 赋予 一 个 布尔 型 的 分 类 ( 例 
如 ,yes 或 no)。 决 策 树 方法 很 容易 扩展 到 学 习 有 两 个 以 上 输出 值 的 函数 。 一 种 更 强 有 
力 的 扩展 算法 允许 学 习 具 有 实数 值 输出 的 函数 ,尽管 决策 树 在 这 种 情况 下 的 应 用 不 太 
常见 。 

e 可 能 需要 析 取 的 描述 (disjunctive description): 如 上 面 指出 的 ,决策 树 很 自然 地 代表 了 

析 取 表达 式 。 

e 训练 数据 可 以 包含 错误 ; 决策 树 学 习 对 错误 有 很 好 的 健壮 性 ,无论 是 训练 样 鲍 所 属 的 
分 类 错误 还 是 描述 这 些 样 例 的 腐 件 值 错误 。 

@ 训练 数据 可 以 包含 缺少 属性 值 的 实例 ; 决策 树 学 习 其 至 可 以 在 有 未 知 属性 值 的 训练 样 
例 中 使 用 (例如 , 仅 有 一 部 分 训练 样 例 知 道 当 天 的 湿度 )}。 这 个 问题 将 在 第 3.7.4 市 中 
讨论 。 

已 经 发 现 很 多 实际 的 问题 符合 这 些 特 征 , 所 以 决策 树 学 习 已 经 被 应 用 到 很 多 问题 中 。 例 
如 根据 疾病 分 类 患者 ;根据 起 因 分 类 设备 故障 ;根据 拖欠 支付 的 可 能 性 分 类 贷款 申请 。 对 于 这 
些 问 题 ,核心 任务 都 是 要 把 样 例 分 类 到 各 可 能 的 离散 值 对 应 的 类 别 (category) 中 ,因此 经 常 被 
称 为 分 类 问题 (classification problem)» 

这 一 章 的 其 余部 分 是 这 样 安排 的 。 第 3.4 节 给 出 学 习 决 策 树 的 基本 ID3 算法 并 演示 它 的 
具体 操作 。 第 3.5 节 分 析 使 用 这 种 学 习 算法 进行 的 假设 空间 搜索 ,并 与 第 2 章 的 算法 进行 上 
比较 。 第 3.6 节 刻 画 了 决策 树 学 习 算法 的 归纳 偏 置 ,并 更 一 般 化 的 探索 了 一 种 被 称 为 扣 坊 姆 
弟 刀 的 归纳 仿 置 ,该 偏 置 优先 选择 最 简单 的 假设 。 第 3.7 节 讨论 了 训练 数据 的 过 上 度 拟 合 
(overfitting) 以 及 解决 这 种 问题 的 策略 ,比如 规则 后 修 六 (post-pruning)。 这 一 节 还 讨论 本 一些 
更 深入 的 话题 ,比如 将 算法 扩展 以 适应 实数 值 访 性 、 带 有 未 观测 到 局 性 的 训练 数据 \ 以 及 有 不 
同 代价 的 属性 。 
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3.4 基本 的 决策 树 学 习 算 法 


大 多 数 已 开发 的 决策 树 学 习 算 法 是 一 种 核心 算法 的 变 体 。 该 算法 采用 自 顶 向 下 的 贪 殖 搜 
索 汤 历 可 能 的 决策 树 空间 。 这 种 方法 是 ID3 算法 (Quinlan 1986) 和 后 继 的 C4.5 BC Quinlan 
1993) 的 基础 ,也 是 讨论 的 重点 。 这 一 节 将 给 出 决策 鱼 学 习 的 基本 算法 ,大 致 相当 于 1D3 算 
法 ， 在 第 3.7 节 我 们 考 送 该 基本 算法 的 一 些 扩展 , 包 桥 被 合并 到 C4.5 和 其 他 一 些 较 新 的 次 
策 树 学 习 算法 中 的 扩展 。 

基本 的 ID3 算法 通过 自 顶 向 下 构造 决策 树 来 进行 学 习 。 构 造 过 程 是 从 “ 哩 一 个 属性 将 在 
树 的 根 结 点 被 测试 ?这 个 问题 开始 的 。 为 了 回答 这 个 问题 ,使 用 统计 测试 来 确定 每 一 个 实例 
属性 单独 分 类 训练 样 例 的 能 力 。 分 类 能 力 最 好 的 属性 被 选 作 树 的 根 结 点 的 测试 。 然 后 为 根 结 
点 属性 的 每 个 可 能 值 产生 一 个 分 支 ,并 把 训练 样 例 排列 到 适当 的 分 支 (也 就 是 , 样 例 的 该 属性 
值 对 应 的 分 支 ) 之 下 。 然 后 重复 整个 过 程 ,用 每 个 分 支 结 点 关联 的 训练 样 例 来 选取 在 该 点 被 测 
试 的 最 佳 属 性 。 这 形成 了 对 合格 决策 树 的 贪 钴 搜索 {greedy search) ,也 就 是 算法 从 不 回 滴 重新 
考虑 以 前 的 选择 。 表 3-1 描述 了 该 算法 的 一 个 简化 版 本 一 一 专门 用 来 学 习 布 尔 值 函 数 {( 即 概 
念 学 习 )。 

S31 SAFER IDS 算法 概要 


ID3( Examples, Target attribute, Attributes } 
Examples 即 训练 样 例 集 。 Target _attribwe SERA AM H RE. Actributes EBR H te EPR: 
Ye ae AES. IPRA DE Examples MRR 
重创 建树 的 Root 结 点 
WF Examples 都 为 正 ,那么 返回 labe = + 的 单 结 点 树 Roor 
@ 如 果 Examples 都 为 反 , 那 么 返回 label = - KAR Root 
@ 如 果 Aitributes HS ,那么 返回 单 结 点 树 Root ,label = Examples 中 最 普遍 的 Target _ attribute 值 
em iste 
@ A+ Artribuces 中 分 类 Examples 能 力 最 好 的 届 性 ” 
者 Root 的 决策 属性 一 4 
OUT 4 的 每 个 可 能 值 +， 
O Æ Ron 下 加 一 个 新 的 分 支 对 应 测试 4 = o, 
@ © Examples, 为 Examples 中 满足 4 MHH v, HTA 


e 如 果 Examples, A 


e 在 这 个 新 分 支 下 加 一 个 叶子 缚 点 .半点 的 label = Examples 中 最 普 记 的 Target _ attribute i 
e 否则 在 这 个 新 分 支 下 加 一 个 子 树 1D3t Examples, ， Target _attribute, Attributes 一 iat) 


oe 
各 返回 Root 


HELA AAEL, AA A AS AB (information gan HARA RAHA, 
3, ID A-PARA THERM EER ASP+AARRR RH RG LAA MAD, BRP RAMA 


Kk a RN ALL, KAA HARRERAN. 
3.4.1 RMEBRENARAMTE 
1D3 算法 的 核心 问题 是 选取 在 树 的 每 个 结 点 要 测试 的 属性 。 我 们 希望 选择 的 是 最 有 助 于 
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分 类 实例 的 属性 。 那 么 衡量 属性 价值 的 一 个 好 的 定量 标准 是 什么 呢 ? 这 里 将 定 头 一 个 统计 属 
性 , 称 为 "信息 增 首 【information gain) ,用 来 衡量 给 定 的 属性 区 分 训练 样 例 的 能 力 。ID3 算法 
在 增长 树 的 每 一 步 使 用 这 个 信息 增益 标准 从 候选 属性 中 选择 属性 ， 

] .用 炉 度 量 样 例 的 均一 性 

为 了 精确 地 定义 信息 增益 ,我 们 先 定义 信息 论 中 广泛 使 用 的 -- 个 度量 标准 , 称 为 和 精 (en- 
tropy) , 它 刻 画 了 任意 样 例 集 的 纯度 (purity)。 给 定 包 含 关 于 某 个 目标 概念 的 正 反 样 例 的 样 例 
集 3 ,那么 5 相对 这 个 布尔 型 分 类 的 铺 为 : 

Entrepy(S) =- po log pa- PC lop po (3.4) 

其 中 ,pe 是 在 5 中 正 例 的 比例 ,pc 是 在 $ 中 反例 的 比例 : EAR Ae Re 
rE XX 0log0 AW 0, 

举例 说 明 ,假设 S 是 一 个 关于 某 布尔 概念 的 有 14 个 样 例 的 集合 , 它 包括 3 个 正 例 各 5 个 
反例 (我 们 采用 记号 [9+ ,5 - ] 来 概括 这 样 的 数据 样 例 )， 那么 相对 于 这 个 布 乐 分 类 的 焕 
为 : 

Entropy([9+,5-])= - (9/14)loga(9/14) ~ (5/14)log2(5/14) 


= 0,940 (3,2) 
注意 ,如 果 S 的 所 有 成 员 属 于 同一 类 ,那么 3 AOA OO. 例如 ,如 果 所 有 的 成 员 是 正 的 
(pa =1) ,那么 po 就 是 0, 于 是 Entropy( S) = - l'log(t) - (0) *log{0) = -1 0-0'logz0= 


0. 34), 当 集 人 台中 正 反 样 例 的 数量 相等 时 , 精 为 1。 如果 集合 中 正 反 鲍 的 数量 不 等 时 Bist + 
OM 1 Zhi, B3-2 RBA TEFRARP RY HARMS pe 从 0 到 1 变化 的 曲线 。 


0.6 4 10 


EA H TAR ERR SEA pg 从 0 到 1, 篇 消 数 恋 化 的 申 线 
图 3-2 KF ARRAY i RK 


fs i PRE ET ERR 5 中 任意 成 员 ( 即 以 均匀 的 概率 随机 抽 
出 的 一 个 成 员 ) 的 分 类 所 需要 的 最 少 二 进 制 位 数 。 举 例 来 说 ,如 果 pe 是 1 ,接收 者 知道 抽出 的 
PEPA WIE, ,所 以 不 必 发 任何 消息 ,此 时 的 粮 为 0。 另 一 方面 ,如 果 pe 是 0.5, 必 须 用 一 个 一 进 
制 位 来 说 明 抽出 的 样 例 是 正 还 是 负 。 如 果 pe 是 0.8, 那 么 对 所 需 的 消息 编码 方法 是 赋予 下 例 
集合 较 短 的 编码 ,可 能 性 较 小 的 反例 集合 较 长 的 编码 ,平均 每 条 消息 的 编码 少 于 1 个 二 进 制 


fi. 
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至 此 我 们 讨论 了 目标 分 类 是 布尔 型 的 情况 下 的 业 。 更 一 般 的 ,如 果 目 标 属性 具有 个 不 
RE ,那么 S 相对 于 ec TRE (c-wise) HABE MH: 


Entropy( S) = > = pilom pi (3.3) 
i=] 


其 中 ,pi 是 5 PRTG HEA. AERAR DAA 2, RAEE 
的 个 数 来 度量 编码 长 度 的 。 同 时 注意 ,如 果 目 标 属 性 具有 co SORE, BARR KO REX 
logs ec» 

2. 4S Re ES i a HR 

CAA TEAR RUE ASAE te HE, BLE BY ae ME AAE BO BE 
的 度量 标准 。 这 个 标准 被 称 为 “信息 增益 "(information gain)。 简 单 地 说 ,一 个 属性 的 信息 增 
益 就 是 由 于 使 用 这 个 属性 分 割 样 俐 而 导致 的 期 望 坑 降低 。 更 精确 地 讲 ,一 个 属性 4 相对 样 例 
集合 5 的 信息 增益 Gain(5, 4 ) 被 定义 为 ; 


Gain(S,A) = Entropy(S) 一 >> ENEE S,) (3.4) 
tE Faua A} i 5 


其 中 , Values( 4 ) 是 属性 A 所 有 可 能 值 的 集合 , S, 是 5 中 属性 4 的 值 为 v 的 子 集 ( 也 就 
是 , 3, = 1sE S14{s) = v1)。 请 注意 ,等 式 (3.4) 的 第 一 项 就 是 原 集 合 SHH. AOE A 
分 类 5 后 焰 的 期 望 值 。 这 个 第 二 项 描述 的 期 望 炳 就 是 每 个 子 集 的 烂 的 加 报 和 , 权 值 为 属于 5， 


的 样 例 占 原始 样 例 S 的 比例 下 8 。 所 以 Gain( S,4 ) 是 由 于 知道 属性 4 的 什 而 导致 的 期 望 


MM, PYAR, Gain(5,4) 是 由 于 给 定 属性 4 的 值 而 得 到 的 关于 目标 函数 值 的 信息 。 
当 对 5 的 一 个 任意 成 员 的 目标 值 编码 时 , Gain( S, 4 ) 的 值 是 在 知道 属性 4 的 值 后 可 以 节省 
的 二 进 制 位 数 。 
例如 ,假定 S 是 一 矢 有 关 天 气 的 训练 样 例 , 描述 它 的 属性 为 可 具有 Weak 和 Strong 两 个 
值 的 Wind。 像 前 面 一 样 ,假定 S 包含 14 个 样 例 一 一 [9+ ,5 - ]。 在 这 14 个 样 例 中 ,假定 正 
例 中 的 6 个 和 反例 中 的 2 个 有 Wind = Weak, RRA Wind = Strong。 由 于 按照 属性 
Wind 分 类 14 个 样 例 得 到 的 信息 增益 可 以 计算 如 下 。 
Values( Wind) = Weak, Strong 
§=[9+ ,5-] 
Spa [6+ ,2-] 


S strong tL 3 + ja gi ] 





= iS, | 





Gain( S$, Wind) = Entropy( S$) 一 Ts Entropy( S, ) 
rE | Weak, Strong} 


= Entropy(S) - (8/14) Entropy 3 peak) — (6/14) Entropy ( S strong) 
= 0.940 — (8/14)0.811 - (6/14)1.00 
= 0.048 
信息 增益 正 是 ID3 算法 增长 树 的 每 一 步 中 选取 最 佳 属性 的 度量 标准 。 图 3-3 概述 了 如 何 
使 用 信息 增益 来 评估 属性 的 分 类 能 力 。 在 这 个 图 中 ,计算 了 两 个 不 同属 性 :湿度 {humidity) 和 
风力 (wind) 的 信息 增益 ,以 便 决定 对 于 分 类 表 3-2 的 训练 样 例 哪 一 个 属性 更 好 。 
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哪 一 个 属性 基 才 性 的 分 类 属性 ? 


5: [$+r.5—] S: [9+,5-] 
E =f O40) £=0.940 


High Normal Weak rong 
[3+.4 一 | [Err,1-] [6+.2~-] [3+,3-} 
E>O.985 E -0.392 È 0.81] E =} 00 
Gan (5. Huwniditry } Goin (5, Wind} 
= 40 (7/1 4).985— ¢3/14).592 = 4 (8 14).81) — (6/1441.0 
= 15) = 48 
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AT Beppe RA LER SAT ER). Humidity E Vind 有 更 太 的 信息 增益 。 这 里 ,下 RRR, 
代表 原始 样 便 集 合 。 已 知 初始 集合 5 有 日 个 正 例 和 5 个 反例 , 即 [9+ ,5~], 用 Humidity 分 类 这 些 样 例 产 生 
TERDI 4+ ,4 一 J]( Humidity = High HLG + 1- i Humidity = Normal)。 这 种 分 类 的 信息 增益 海上 0.151, 而 对 


于 属性 Wind 增益 仅 为 0.048 
图 3-3 计算 属性 的 信息 增益 


3.4.2 举例 


为 了 演示 ID3 算法 的 具体 操作 ,考虑 表 3-2 的 训练 数据 所 代表 的 学 习 任 务 。 这 里 ,目标 属 
性 PlayTennis 对 于 不 同 的 星期 入 上 午 具 有 yes Al no 两 个 值 ,我 们 将 根据 其 他 属性 来 预测 这 个 
且 标 属性 值 。 先 考虑 这 个 算法 的 第 一 步 , 创 建 决策 树 的 最 顶端 结 点 。 哪 一 个 属性 该 在 树 上 第 


— AEWA? D3 算法 计算 每 一 个 候选 属性 (也 就 是 Outlook. Temperature, Humidity 和 


Vind Matt ,然后 选择 信息 增益 最 高 的 一 个 。 其 中 两 个 属性 的 信息 增益 的 计算 显示 在 


图 3-3 中 。 
所 有 四 个 属性 的 信息 增益 为 : 
Gain( 5, Outlook) = 0.246 


Gain( $, Humidity ) =0.15] 
Gain( S$, Wind) =0.048 
Gain S, Tem perature ) = 0.029 
HEH, SERER 3-2 的 训练 样 例 的 集合 。 
3-2 目标 概念 PloyTennis 的 训练 样 例 


Day Outlook Temperature Humidity 
| opt Sunny Hot High 
D2 Sunny Hot High 
D3 Cvercast Hot High 
[4 Rain Mild High 
D5 Rain Cool Normal 
DS Rain Cadl Normal 
D7 Overcast Coal Normal 
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Wind 
Weak 
Strong 
Weak 
Weak 
Weak 
Strong 


Strong 


Play fennis 


CG 一 — 











(BE) 

Day Gurlook Temperuiure Humidity Wind Play Tennis 
DE Sunny M ild High —_ Weak No 
D9 Sunny Coal Normal Weak Yes 
DIQ Rain Mild Normal Weak Yes 
i Sunny Mild Normal Strong Yes 
H2 Overcast Mild High Strong Ye 
D13 Overcast Hot Nurimny Weak Yes 
D14 Rain Mild High Strong Noa 


根据 信息 增益 标准 ,属性 Outlook TIRE LEE T X BE PlayTennis 的 最 佳 预 
测 。 所 以 , Outlook 被 选 作 根 结 点 的 决策 属性 ,并 为 它 的 每 一 个 可 能 什 ( 也 就 是 Sunny, Over- 
cast Fl Rain ERA PRBS. 得 到 的 部 分 决策 树 显示 在 图 3-4 中 ,同时 奖 出 的 还 有 被 排 
列 到 每 个 新 的 后 继 结 点 的 训练 样 例 。 注意 到 每 一 个 Outlook = Overcast 的 样 例 也 都 是 
PlayTennis #) 1E Ple PT LA, ox hea RR A AATA, C H eI TE AY op E 
Play Tennis = Yes. HER ,对应 Outlook = Sunny $ Outlook = Rain BERA UES JE 0 AJM, 
FIT LA REA AEEA PE ETT o 


1D], D2, .... 014} 
[Sr.3—] 


P Overcast Rain 
{6H 1.02,08,.09,D11} (D3,D7,.012,B13] {(D4,05,06,D10,Di4) 
[2+,3~] [4+,0-] {34,2-] 


O 


7 


STR N? 


Ssanny = (D1,D2.D8.D9,D11} 
Gain (Ssunny : Humidity) = 970 - (3/5}0.0 - (2/5)00 = .970 
Gain (Ssunny. Temperature) = 970 - (275) 0.0 - (2/5) 1.0 - (145}00 = 570 
Gain (Ssunny. Wind) = 970 - (215) 1.0 - (¥5).918 = .019 


HAAR SIM RSA A. SE Overcast 的 所 有 样 例 都 是 正 例 , 所 以 成 为 目标 分 类 为 Yes BETA 
另 两 个 铺 点 将 被 进一步 展开 ,方法 是 按照 新 的 样 例子 集 选 取信 息 增益 最 商 的 局 性 


图 34 ID 算法 第 一 步 后 形成 的 部 分 决策 树 


对 于 非 终 端的 后 继 结 点 ,再 重复 前 面 的 过 程 选择 一 个 新 的 属性 来 分 割 训练 样 例 , 这 一 次 仅 使 
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用 与 这 个 结 点 关联 的 训练 样 例 。 已 经 被 树 的 较 高 结 点 测试 的 属性 被 排除 在 外 ,以 便 任 何 给 定 的 
属性 在 树 的 任意 路 径 上 最 多 仅 出 现 一 次 、 对 于 每 一 个 新 的 时 子 结 点 继续 这 个 过 程 , 直 到 满足 以 
下 两 个 条 件 中 的 任 一 个 : (1) 所 有 的 属性 已 经 被 这 条 路 径 包 括 ; 2) 与 这 个 结 点 关联 的 所 有 训 
练 样 例 都 具有 相同 的 是 标 属 性 值 ( 也 就 是 它们 的 精 为 0)。 图 3-4 列 出 了 下 一 步 增 长 树 要 计算 的 
信息 增益 。 表 3-2 的 14 个 训练 样 例 通 过 ID3 算法 得 到 的 最 终 决 策 树 面 在 图 3-1 中 。 
3.5 决策 树 学 习 中 的 假设 空间 搜索 

与 其 他 的 归纳 学 习 算 法 一 样 ,ID3 算法 可 以 被 描述 为 从 一 个 假设 空间 中 搜索 一 个 拟 合 训 
练 样 例 的 假设 。 被 iD3 算法 搜索 的 假设 空间 就 是 可 能 的 决策 树 的 集合 。1D3 算法 以 一 种 从 简 
单 到 复兴 的 站 出 算 法 遍历 这 个 假设 空间 ,从 空 的 树 开 始 ., 然 后 逐步 考虑 更 加 复杂 的 假设 ,日 的 
是 搜索 到 一 个 正确 分 类 训练 数据 的 次 策 树 。 引 导 这 种 爬山 搜索 的 评估 函数 是 信息 增益 度量 ， 
RI 3-5 描述 了 这 种 搜索 。 


A 
ae ORR 
N 


A2 A2 
+- + 一 sane E 
AJ A 


ID3 BHA ARRAS A BHR. 其 搜索 由 信息 增益 启发 式 规 则 引导 
图 3-5 ID3 搜索 的 假设 空间 


通过 观察 ID3 算法 的 搜索 空间 和 搜索 策略 ,我 们 可 以 深入 认识 这 个 算法 的 优势 和 不 是。 

$ ID3 算法 中 的 假设 空间 包含 所 有 的 决策 树 , 它 基 关 于 现 有 属性 的 有 限 离散 值 疯 数 的 一 
个 完整 空间 。 因 为 每 个 有 限 离 散 什 滑 数 可 被 宕 示 为 某 个 决策 树 , 所 以 ID3 算法 避免 了 
搜索 不 完整 假设 空间 (例如 那些 仅 考虑 人 台 取 假设 的 方法 ) 的 一 个 主要 风险 :假设 特 间 吕 
能 不 包含 目标 函数 。 

@ 当 凯 历次 策 树 空间 时 ,ID3 仅 维 护 单 一 的 当前 假设 。 这 与 第 2 草 讨 论 的 变型 空间 候选 
消除 方法 不 同 ,后 者 维护 了 与 当前 的 训练 样 例 一 致 的 所 有 恨 设 的 集合 。 因 为 仅 考 虑 单 
一 的 假设 ,ID3 算法 失去 了 表示 所 有 一 致 假设 所 带 来 的 优势 。 例 如 , 它 不 能 判断 有 多 人 少 
个 其 他 的 决策 树 也 是 与 现 有 的 训练 数据 一 致 的 ,或 者 使 用 新 的 实例 查询 来 最 优 地 区 分 
这 些 竞争 假设 。 
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9 基本 的 ID3 算 法 在 搜索 中 不 进行 回 滴 。 每 当 在 树 的 某 一 层次 选择 了 一 个 属性 进行 测 
试 , 它 不 会 再 回溯 重新 考虑 这 个 选择 ， 所 以 , 它 易 受 无 回溯 的 让 山 搜 索 中 的 常见 风险 影 
Ne): 收 全 到 局 部 最 优 的 管 案 , 而 不 是 全 局 最 优 的 对 于 ID3 算法 ,一 个 局 部 最 优 的 答案 

对 应 着 它 在 一 条 搜索 路 答 上 探索 时 选择 的 决策 树 。 然 而 ,这 个 局 部 最 优 的 答案 可 能 不 
如 党 着 荔 一 条 分 支 搜 索 到 的 更 令 人 满意 。 后 面 我 们 讨论 一 个 扩展 ,增加 一 种 形式 的 回 
BH CS 12 BRR) o 

© ID3 算法 在 搜索 的 每 一 步 都 使 用 当前 的 所 有 训练 样 例 , 以 统计 为 基础 决定 怎样 精 化 当 
前 的 乱 设 。 这 与 那些 基于 单独 的 训练 样 例 递增 作出 决定 的 方法 (例如 , FINp-S 或 候选 消 
除法 ) 不 同 。 使 用 所 有 样 例 的 统计 属性 (例如 ,信息 增益 ) 的 一 个 优点 是 大 大 降低 了 对 个 
别 训练 样 例 错误 的 敏感 性 。 因 此 ,通过 修改 ID3 BOR EMU ES RSW A ill 
练 数据 的 假设 , 它 可 以 币 很 容易 地 扩展 到 处 理 含有 了 蝇 声 的 训练 数据 . 


3.6 决策 树 学 习 的 归纳 偏 置 


ID3 算法 用 什么 策略 从 观测 到 的 训练 数据 证 化 以 分 类 未 见 实 例 呢 ? 换 铝 话说 , 它 的 归纳 偏 置 是 
什么 ? 回忆 第 2 章 中 ,归纳 侦 置 是 一 系列 朋 提 ,这 些 前 提 - 与 吉 练 数据 一 -起 请 绎 论证 未 来 实例 的 分 类 。 

如 果 给 定 一 个 训练 样 鲍 的 集合 ,那么 通 靖 有 很 多 决策 树 与 这 些 样 例 一 致 。 所 以 ,要 描述 
ID3 算法 的 归纳 偏 置 ,应 我 到 它 从 所 有 --- 致 的 假设 中 选择 一 个 的 根据 。ID3 从 这 些 决策 树 中 
选择 哪 一 个 呢 ?” 它 选择 在 使 用 简单 到 复 染 的 有 碟 山 算法 裔 历 可 能 的 树 空间 时 过 到 的 第 一 个 可 接 
ERIRE. BER HHE, IDS 的 搜索 策略 为 ，(a) 优 先 选择 较 短 的 树 而 不 是 较 长 的 ;(b) 选 择 那 些 信 
息 增益 高 的 属性 离 根 结 点 较 近 的 树 。 在 ID3 中 使 用 的 选择 属性 的 启发 式 规则 和 它 遇 到 的 特 
定 训练 样 例 之 间 存 在 着 微妙 的 相互 作用 ,由 于 这 一 点 ,很 难 准 确 地 肇 划 出 ID3 MAA Eo 
然而 我 们 可 以 近似 地 把 它 的 归纳 篇 置 措 述 为 一 种 对 得 的 决策 树 的 偏好 。 

近似 的 ID3 算法 归纳 偏 置 : 较 短 的 树 比 较 长 的 树 优先 。 

事实 上 ,我 们 可 以 想像 一 个 类 似 于 ID3 HR CoRR ARMA. Se 
算法 , 它 从 一 个 空 的 树 开 始 广度 优先 {breadth first) 搜 索 逐 渐 复 玉 的 树 , 先 考虑 所 有 广度 为 1 的 
树 , 然 后 所 有 深度 为 2 的 ,…… 一 旦 它 找到 了 一 个 与 训练 数据 一 致 的 决策 树 , 它 返回 搜索 深度 
的 最 小 的 一 致 树 ( 例 如 ,具有 最 少 结 点 的 树 )。 让 我 们 称 这 种 广度 优先 搜索 (breadih-first 
search ) 算 法 为 BFS-ID3。BFS-ID3 寻找 最 短 的 决策 树 , 因 此 精确 地 上 有 具有“ 较 短 的 树 比 较 长 的 树 
优先 "的 偏 置 。ID3 可 被 看 作 BFS-ID3 的 一 个 有 效 近似 , 它 使 用 一 种 贪 禁 的 启发 式 搜索 企图 发 
ARERR, 而 不 用 进行 完整 的 广度 优先 搜索 来 遍历 假设 空间 。 

因为 ID3 使 用 信息 增益 启发 式 规则 和 “有 疏 山 "策略 , 它 包 含 比 BFS-ID3 BMA. È 
其 是 , 它 并 非 总 是 找 最 得 的 一 致 检 , 而 是 倾向 于 那些 信息 增益 高 的 属性 更 靠近 根 结 点 的 色 。 

1D3 归纳 偏 司 的 更 贴切 近似 ， 较 短 的 树 比 较 长 的 树 优 先 。 那 些 信 息 增 益 病 的 属性 更 靠近 
根 结 点 的 树 优先 。 


3.6.1 REEMA 


在 ID3 算 法 和 第 2 人 
下 面 考 虑 一 下 这 两 种 方法 中 对 假设 空间 搜索 的 差异 : 
@ ID3 的 搜索 范围 是 一 个 完整 的 很 设 空间 (例如 ,能 表示 任何 有 限 的 离散 值 呵 数 的 空间 ) 
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但 它 不 彻底 地 搜索 这 个 空间 ,从 简单 的 假设 到 复杂 的 假设 ,直到 过 到 终止 条 和 件 ( 例 如 , 生 
发 现 了 一 个 与 数据 一 致 的 假设 )。 它 的 归纳 偏 置 完全 是 搜索 策略 排序 假设 的 结果 。 民 
的 假设 空间 没有 引入 额外 的 偏 置 。 

. 变型 空间 候选 消除 算法 的 搜索 范围 是 不 完整 的 假设 空 税 ( 即 一 个 仅 能 表示 潜在 可 教授 
概念 子 集 的 空间 ) ,但 它 彻底 地 搜索 这 个 空间 ,查找 所 有 与 训练 数据 -… 致 的 假设 ,。 它 的 
归纳 偏 属 完全 是 假设 表示 的 表达 能 力 的 结果 。 它 的 搜索 策略 没有 引入 额外 的 仿 置 。 

简单 地 讲 ,ID3 的 归纳 偏 置 来 自 它 的 搜索 策略 ,而 候选 消 队 算法 的 妇 纳 候 置 来 自 它 对 搜索 
空间 的 定义 。 

D3 的 归纳 偏 置 是 对 某 种 假设 (例如 ,对 于 较 得 的 假设 ) 胜 过 其 他 假 讼 的 一 种 优选 (prefer- 
ence) , 它 对 最 终 可 列举 的 假设 没有 硬性 限制 。 这 种 类 型 的 偏 置 通常 被 称 为 优选 偏 置 (prefer- 
ence bias) (或 叫 搜索 偏 置 (search bias))。 相 反 ,候选 消除 算法 的 偏 置 是 对 待考 虑 假设 的 一 种 限 
定 (restriction)。 这 种 形式 的 偏 置 通常 被 称 为 限定 偏 置 (或 者 叫 语言 偏 置 (language bias) ). 

如 果 需 要 某 种 形式 的 归纳 偏 置 来 从 训练 数据 中 泛 化 ( 见 第 2 音 ) RAR AAAS a 
种 形式 的 归纳 偏 置 : 优选 偏 置 还 是 限定 偏 置 ? 

通常 ,优选 偏 置 比 限 定 偏 置 更 符合 需要 ,因为 它 允 许 学 习 屁 工作 在 完整 的 假设 空间 上 ,这 
保证 了 未 知 的 目标 函数 被 包含 在 内 。 相 反 ,限定 篇 置 严 格 地 限制 了 假设 集合 的 潜在 空间 ,通常 
不 是 我 们 希望 的 ,因为 它 同时 引入 了 把 未 知 的 目标 函数 排除 在 外 的 可 能 性 。 

鉴于 ID3 采用 纯粹 的 优选 偏 置 而 振 选 消除 算法 采用 纯粹 的 限定 偏 置 ,一 些 学 习 系 统 综合 
了 这 两 者 。 例 如 ,考虑 第 1 章 中 撕 述 的 下 棋 程 序 的 例子 。 其 中 ,学 习 到 的 评 佑 未 数 被 表示 为 -- 
些 固定 的 棋盘 特征 的 线性 组 合 。 学 习 算 法 调整 这 个 线性 组 合 的 参数 来 最 好 地 拟 合 现 有 的 训练 
数据 。 这 里 ,使 用 线性 函数 来 表示 评估 函数 的 决定 就 引 人 了 限定 偏 置 ( 非 线性 的 评估 项 数 不 可 
能 被 表示 成 这 种 形式 )。 同 时 ,选择 了 有 一 个 特定 的 参数 调整 方法 (LMS 算法 ) 就 引入 了 一 个 
优选 偏 置 ,这 一 特定 参数 源 自 所 有 可 能 参数 值 宅 间 上 的 顺序 搜索 。 


3.6.2 为 什么 短 的 假设 优先 


D 算法 中 优选 较 短 决策 树 的 归纳 偏 置 ,是 不 是 从 训练 数据 中 泛 化 的 一 个 可 靠 基 础 ? 哲 
学 家 们 以 及 其 他 学 者 已 经 对 这 样 的 问题 争论 几 个 世纪 了 ,而 且 这 个 争论 至 今 尚未 解决。 威廉 : 
奥 坎 姆 大 约 在 1320 年 提出 了 类 似 的 论点 中 ,是 最 时 讨论 这 个 问题 的 入 之 一 ,所 以 这 个 偏 置 经 
RRA BE BT” (Occam's razor). 

BREET): 优先 选择 拟 合 数据 的 最 简单 的 假设 。 

当然 给 出 一 个 归纳 偏 置 的 名 字 不 等 于 证 明了 它 。 为 什么 应 该 优先 选择 较 简 单 的 假设 呢 ? 
请 注意 科学 家 们 有 时 似乎 也 遵循 这 个 归纳 偏 置 。 例 如 物理 学 家 优先 选择 行星 运动 简单 的 解 
释 , 而 不 用 复杂 的 解释 ,为 什么 ? 一 种 解释 是 短 假设 的 数量 少 于 长 假设 的 数量 (基于 简单 的 参 
数组 合 》 所 以 找到 一 个 短 的 但 同时 与 训练 数据 拟 合 的 假设 的 可 能 性 较 小 。 相 反 ,常常 有 很 多 
非常 复杂 的 恨 设 拟 合 当 前 的 训练 数据 ,但 却 无 法 正确 地 泛 化 到 后 来 的 数据 。 例 如 考虑 决策 树 
假设 ，500 个 结 点 的 决策 树 比 5 个 结 点 的 决策 树 多 得 多 。 如 果 给 定 一 个 20 个 训练 样 例 的 集 


= 


个 ”显然 是 在 刮 胡须 时 想到 的 。 
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合 , 可 以 预期 能 够 找到 很 多 500 MAR RAR SURE RMR 5S PARR 
树 可 以 完美 地 拟 合 这 些 数 据 则 是 出 乎 意料 的 。 所 以 我 们 会 相 迟 5 个 结 点 的 树 不 太 可 能 是 统计 
切合 ,因而 优先 选择 这 个 假 谈 , 而 不 选择 500 个 结 点 的 。 

根据 更 深入 的 分 析 , 可 以 发 现 上 面 的 解释 有 一 个 主要 的 困难 。 为 什么 我 们 不 反问 ， 使 用 
同样 的 推理 ,点 该 优先 选择 包含 恰好 有 17 个 叶子 结 点 和 11 PSEA TA RR? RAY 
在 根 结 点 使 用 决策 属性 A, ,然后 以 数字 顺序 测试 扁 性 A. 直到 A11。 这 样 的 决策 树 相 当 少 , 因 
此 (用 和 上 而 同样 的 推理 ) ,找到 其 中 之 一 与 任意 数据 集 一 致 的 先 验 可 能 性 也 很 小 。 这 里 的 困 
难 在 二 可 以 定义 很 多 小 的 假设 集合 一 一 其 中 大 儿 数 相当 上 胜 汲 难 解 。 那 么 ,我 们 根据 什么 相信 
Aj #23628 (short description) 的 决策 树 给 成 的 小 假设 集合 就 比 其 他 众多 可 定义 的 小 假设 集合 更 
适当 呢 ? 

F 面 的 奥 才 姆 剃刀 诛 周 的 解释 的 第 二 个 难题 是 ,要 说 的 大 小 是 申 党 习 器 内 部 使 用 的 特定 
去 不 决定 的 。 所 以 两 个 学 习 器 使 用 不 同 的 内 部 表示 会 得 到 不 同 的 假设 ,两 者 又 都 用 奥 坎 姆 弟 
刀 闵 风 得 到 相互 矛盾 的 结论 ! 例如 ,如 果 我 们 定义 属性 XYZ, 它 对 于 被 图 3-1 的 决策 树 分 类 
为 正 例 的 实例 为 真 ,相反 为 假 ,那么 一 个 学 习 器 就 可 以 把 图 3-1 中 抉 策 树 表示 的 一 数 表 示 为 只 
有 -- 个 决策 结 点 的 树 。 于 是 ,两 个 学 习 咀 如 果 -- 个 使 用 了 TYZ 属性 描述 它 的 实例 ,而 男 一 个 
只 使 用 Outlook. Temperature. Humidity A Wind BY (Law ARR, BACH 
会 以 不 同 的 方式 证 化 。 

以 说明 ,对 于 同一 套 训练 样 例 , 当 两 个 学 习 髓 以 不 同 的 内 部 表示 方式 理解 和 使 用 这 些 样 
例 时 ,会 产生 两 个 不 同 的 假设 。 基 于 这 一 点 ,似乎 我 们 应 完全 抵制 届 坑 姆 剃刀 原则 .不 过 ,证 
我 们 看 一 看 下 苟 这 个 场景 ,并 分 析 哪 一 个 内 部 表示 会 从 上 自然 选择 和 进化 中 脱 猴 而 出 。 想 像 … 
个 出 人 造 的 学 习 agent 组 成 的 群体 ,这 个 群体 是 由 模拟 的 进化 过 程 产生 的 ,进化 过 程 包括 a- 
gent 的 繁殖 .变异 和 自然 选择 。 假 定 这 个 进化 过 程 能 够 一 代 接 一 代 地 改变 这 些 agent 的 感知 
系统 ,由 此 改变 它们 用 来 感知 世界 的 办 官 的 内 部 属性 。 出 于 论证 的 考虑 ,我 们 也 假定 这 些 学 习 
agent 当 用 一 个 不 会 被 进化 所 改变 的 固定 的 算法 (比如 ID3)。 有 理由 推断 , 随 着 时 间 的 流逝 ， 
进化 会 产生 更 好 的 内 部 表示 ,使 agent 能 愈加 成 功 地 生存 在 它们 的 环境 中 假定 agent 的 成 功 
依赖 于 它 精 确证 化 的 能 力 ,我 们 可 以 期 望 , 进 化 产生 的 内 部 表示 对 任何 学 习 算 法 和 归纳 帆 置 都 
有 很 好 的 性 能 。 如 果 某 个 agent 种 群 末 用 了 带 有 奥 坎 姆 剃刀 归纳 仿 置 的 学 习 算 法 ,那么 我 们 
期 望 进化 会 产生 适合 奥 才 姆 剃刀 策略 的 内 部 表示 。 这 个 论点 的 精 休 在 于 ,进化 产生 的 内 部 表 
示 使 得 学 习 算法 的 归纳 偏 置 成 为 自我 实现 的 预言 (self-fulfilling prophecy), 只 因为 它 改变 内 部 
表示 比 改 变 学 习 算 法 重 容易 。 

我 们 暂时 放下 关于 奥 坎 姆 剃刀 的 争论 。 在 第 6 章 我 们 会 再 次 提起 这 个 话题 ,将 讨论 最 小 
描述 长 度 (Minimum Description Length RIH, EES- MERI HAEA, a HN 叶 斯 框架 
来 解释 。 


3.7 决策 树 学 习 的 常见 问题 


决策 树 学 习 的 实际 问题 包括 : 确定 决策 树 增长 的 深度 ;处 理 连续 值 的 属性 ;选择 一 个 适当 
的 属性 第 选 度量 标准 ;处 理 属 性 值 不 完整 的 训练 数据 ;处 理 不 同 信 价 的 属性 ;提高 计算 效率 ， 
下 茄 我 们 讨论 每 一 个 问题 ,并 针对 这 些 问 题 扩展 基本 的 ID 算法 。 事 实 上 ,为 了 解决 其 中 的 
多 数 问题 ，ID3 算法 已 经 被 扩展 了 ,扩展 后 的 系统 被 改名 为 C4.5(Quinlan 1993)。 
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3.7.1 避免 过 度 拟 合 数 据 


表 3-1 描述 的 算法 增长 树 的 每 -- 个 分 支 的 深度 ,直到 恰好 能 对 训练 样 例 完美 地 分 类 。 然 
而 这 个 策略 并 非 总 行 得 通 。 事 实 上 , 当 数 据 中 有 咯 声 或 训练 样 例 的 数量 太 少 以 至 于 不 能 产生 
目 栎 隧 数 的 有 代表 性 的 采样 时 ,这 个 策略 便 会 过 到 困难 。 在 以 上 任 一 种 情况 发 生 时 ,这 个 简单 
的 算法 上 产生 的 树 会 过 度 拟 合 训练 样 例 。 

对 于 一 个 假设 , 当 存 在 其 他 的 假设 对 训练 样 例 的 拟 合 比 它 差 ,但 事实 上 在 实例 的 整个 分 布 
(也 就 是 包含 训练 集合 以 外 的 实例 ) 上 表现 得 却 更 好 时 ,我们 说 这 个 假设 过 度 拟 合 (overfit) 训 
练 样 例 . 


定义 :给 定 一 个 假设 空间 二 ,一 个 假设 hE 五, 如 果 存 在 其 他 的 假设 K CO EE 
PEALE A 的 错误 率 比 六 小 ,但 在 整个 实例 分 布 上 产 的 错误 率 比 天 小 ,那么 就 说 假设 六 过 麻 拟 
合 (overfit) 训 练 数据 。 


图 3-6 本 出 了 在 决策 树 学 习 的 一 个 典型 应 用 中 过 度 拟 合 的 影响 。 在 这 个 例子 中 .ID3 算 
法 用 来 学 习 哪 一 个 病人 患 有 某 种 精 尿 病 。 这 申 图 的 横 轴 表示 在 决策 树 创 建 过 程 中 树 的 绩 点 总 
数 , 纵 轴 表 示 决 策 树 作出 的 预测 的 精度 。 实 线 显 示 决 策 树 在 训练 样 例 上 的 精度 ,虚线 显示 在 一 
套 独 立 的 测试 样 例 (没有 被 包括 在 训练 样 例 中 ) 上 测量 出 的 精度 。 可 以 看 出 , 随 着 树 的 增长 ,在 
训练 样 例 上 的 精度 是 单 请 上升 的 。 然 而 ,在 独立 的 测试 样 例 上 测 出 的 精度 先 上 升 后 下 降 。 如 
图 所 示 , 当 树 超 过 大 约 25 个 结 点 时 ,对 树 的 进一步 精 化 尽管 可 以 提高 它 在 训练 数据 上 的 精度 ， 
却 降低 了 它 在 测试 样 例 上 的 精度 。 
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样 例 上 ,精度 先 上 升 在 下 降 。 实验 这 个 图 所 需 的 软件 和 数据 可 以 通过 现 址 http: //www.cs.cmu. eu ~ tom/ml- 
book. html 得 到 


图 3.6 决策 树 学 习 中 的 过 度 拟 合 


是 什么 原因 导致 树 bb 比 树 &' 更 好 地 拟 合 训练 样 例 , 但 对 于 后 来 的 实例 却 表 现 更 差 呢 ?这 
种 情况 发 生 的 一 种 可 能 原因 是 训练 样 例 含有 随机 错误 或 噪声 。 举 例 说 明 , 考 处 在 表 3-2 的 原 
本 正确 的 样 例 中 加 人 一 条 训练 正 例 , 但 却 被 误 标 示 为 反例 ,如 下 : 
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————— Ss i pi SE ee Se 


对 于 本 来 设 有 错误 的 数据 ,ID3 生成 图 3-1 RRA. Ai BO AERA 

SX ID3 建立 一 个 更 复杂 的 树 。 确 切 地 讲 , 新 的 样 例 会 被 排列 到 图 3-1 表示 的 树 的 左 起 第 二 

个 叶子 结 点 ,与 以 前 的 正 例 D9 和 Dll 排 在 -:- 起 。 因 为 新 的 样 例 被 标记 为 反例 ,所 以 ID3 会 在 

这 个 结 点 下 面 进一步 搜索 更 多 的 细节 。 当 然 只 要 新 的 错误 样 例 与 原来 这 个 结 点 的 两 个 样 例 有 

任何 差异 ,ID3 会 成 功 找到 一 个 新 的 识 策 属 迟 来 把 新 的 样 例 从 以 前 的 两 个 正 例 中 分 开 、 这 样 


Outlook = Sunny, Temperature = Hot, Hunudity = Normal, Wind = Strong, Play Tennis = No) 


的 结果 是 (D3 会 输出 一 个 决策 树 (人 天) , 它 比 图 3-1 中 原来 的 树 (h') 更 复杂 。 当 然 ,有 会 完美 地 
拟 合 训练 样 例 集 , 而 较 简单 的 参 不 会 。 然 而 ,由 于 新 的 诀 策 结 点 只 是 拟 合 训练 样 例 中 噪声 的 
结果 ,我 们 可 以 断定 在 取 上 自 同 一 实例 分 布 的 后 续 数 据 上 ,天 会 胜 过 于。 

上 面 的 例子 演示 了 训练 样 例 中 的 随机 噪声 如 何 导 致 过 度 拟 合 。 事 实 上 , 当 训 练 数据 没有 
Brant ,过 度 拟 合 也 有 可 能 发 生 , 特 别 是 当 少 量 的 样 例 被 关联 到 叶子 结 点 时 。 这 种 情况 下 ,很 
可 能 出 现 巧 合 的 规律 性 ,使 得 一 些 属性 恰巧 可 以 很 好 地 分 割 样 例 , 但 却 与 实际 的 自 标 隙 数 并 无 
关系 。 一 旦 这 样 巧合 的 规律 性 存在 ,就 有 过 度 拟 合 的 风险 。 

过 度 拟 合 对 于 决策 树 学 习 和 其 他 很 多 学 习 算 法 是 一 个 重要 的 实 研 难题。 例如 ,在 一 次 关 
于 ID3 算法 的 实验 研究 中 (Mingers 1989b), 对 于 涉及 5 种 带 有 噪声 和 不 确定 数据 的 不 同 研究 
中 ,人 人 们 发 现在 多 数 问 题 中 过 度 拟 合 使 决策 树 的 精度 降 斧 了 100-25% 
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© FL HS ,在 ID3 算法 完美 分 类 训练 数据 之 前 就 停止 树 增长 ; 

@ 后 修 前 法 (post-prune) , 即 允 许 树 过 度 拟 合 数据 ,然后 对 这 个 树 进 行 后 修 前 。 

尽管 第 一 种 方法 可 能 看 起 来 更 直接 ,但 是 对 过 度 氟 合 的 糙 进 行 后 笑 剪 的 第 二 种 方法 被 证 
阴 在 实 戚 中 更 成 功 。 这 是 因为 在 第 一 种 方法 中 精确 地 知 计 何 时 停止 树 增 长 很 困难 。 

无 论 是 通过 及 时 停止 还 是 后 由 前 来 得 到 正确 规模 的 树 ,一 个 关键 的 问题 是 使 用 作 么 样 的 
准则 来 确定 最 终 正 确 树 的 规模 。 解 决 这 个 问题 的 方法 包括 ; 

9 使 用 与 训练 样 例 截然 不 同 的 一 套 分 离 的 样 例 ,来 评 佑 通过 后 修剪 方 法 从 树 上 修 音 结 点 

的 效用 。 

© 使 用 所 有 可 用 数据 进行 训练 ,但 进行 统计 测试 来 估计 扩展 (或 修剪 ) 一 个 特定 的 结 点 十 
和 否 有 可 能 改善 在 训练 集合 外 的 实例 上 的 性 能 。 例 如 , Quinlan(1986) 使 用 一 种 卡 方 
Cchi-square) 测 试 来 和 估计 进一步 扩展 结 点 是 否 能 改善 在 整个 实例 分 布 上 的 性 能 ,还 是 仅 
仅 改善 了 当前 的 训练 数据 上 的 性 能 。 

使 用 一 个 明确 的 标准 来 衡量 训练 样 例 和 决策 树 的 复杂 度 , 当 这 个 编码 的 长 度 最 小 时 停 
止 树 增长 。 这 个 方法 基于 一 种 朋 发 式 规则 ,被 称 为 最 小 描述 长 度 ( Minimum Description 
Lengith) 的 准则 ,我 们 将 在 第 6 章 中 讨论 这 种 方法 。Quinlan & Rivest( 1989) 和 和 Mehta et 
al.(1995) 也 讨论 了 这 种 方法 。 

上 面 的 第 一 种 方法 是 最 普通 的 , 它 常 被 称 为 训 系 和 验证 集 (training and validation set) 法 。 

下 面 我 们 讨论 这 种 方法 的 两 个 主要 变种 。 这 种 方法 中 ,可 用 的 数据 被 分 成 两 个 样 例 集合 : 一 
个 训练 集合 用 来 形成 学 习 到 的 想 设 ， 一 个 分 离 的 验证 集合 用 来 评估 这 个 假说 在 后 续 数 据 上 的 
精度 ， 确 切 地 说 是 用 来 评估 修剪 这 个 假设 的 影响 。 这 个 方法 的 动机 是 ， 即 使 学 习 器 可 能 会 被 
训练 集合 中 的 随机 错误 和 巧合 规律 性 所 误导 ,但 验证 集合 不 大 可 能 表现 出 同样 的 随机 波动 。 
所 以 ,验证 集合 可 以 用 来 对 过 度 拟 合 训练 集中 的 虚假 特征 提供 防护 检验 。 当 然 ,很 重要 的 一 点 
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是 验证 集合 应 该 足够 大 ,以 便 它 本 身 可 提供 具有 统计 意义 的 实例 样本 。 一 种 请 见 的 做 法 是 取 
出 可 用 样 例 的 三 分 之 一 用 作 验 证 集合 ,用 男 外 三 分 之 二 作 训 练 集合 ， 

1 HHR E HRI D 

使 用 验证 集合 来 防止 过 度 拟 合 的 确切 方法 中 什么 ?一 种 称 为 "错误 率 降 低 修 前 (reduced- 
error pruning) 的 方法 {Quinlan 1987) 是 考虑 将 树 上 的 每 一 个 结 点 作为 修剪 的 候选 对 象 。 收 前 
一 个 结 点 由 以 下 步骤 组 成 : 删除 以 此 结 点 为 根 的 子 树 ;使 它 或 为 片子 结 点 ;把 和 该 结 点 关联 的 
训练 样 便 的 最 常见 分 类 赋 给 它 。 仅 当 修 前 后 的 树 对 于 验证 集合 的 性 能 不 比 原 来 的 柑 差 时 才 删 
除 该 结 点 。 这 样 便 使 因为 训练 集合 的 妃 合 规律 性 而 如 入 的 入 点 很 可 能 被 删除 ,因为 网 样 的 扫 
合 不 大 会 发 生 在 验证 集合 中 。 反 复 地 修剪 结 点 ,每 次 名 是 选取 那些 删除 后 可 以 最 大 提高 决策 
树 在 验证 集合 上 的 精度 的 结 点 。 继 续 修 前 结 点 直到 进一步 的 修剪 是 有 害 的 为 止 (也 就 是 降 低 
了 在 验证 集合 上 的 精 产 )。 

“错误 率 降低 修剪 "对 决策 树 精 度 的 影响 被 画 在 图 3-7 中 。 和 图 3-6 一 样 ,图 3-7 显示 了 在 
训练 样 例 和 测试 样 例 上 的 决策 树 精 度 。 图 3-7 中 另外 一 条 线 显 示 的 是 随 着 树 的 修剪 , 它 在 测 
试 样 例 上 的 精度 变化 。 当 修剪 开始 时 , 树 的 规模 最 大 ,并 且 它 在 测试 样 例 上 的 精度 最 小 MA 
修 前 的 进行 , 结 点 的 数量 下 降 ,但 在 测试 集 台 上 的 精度 上 升 。 这 里 可 供 使 用 的 数据 已 经 被 分 成 
3 个 子 集 ; 训练 样 全 . 供 修 剪 树 用 的 验证 样 例 和 一 :个 测试 样 例 集 合 . 测试 样 例 用 来 提供 在 林 
来 的 未 多 实例 上 的 精度 的 无 偶 佑 计 。 图 中 显示 了 在 训练 集 和 调试 集 上 的 精度 。 在 肌 作 人 收 硼 的 
验证 集合 上 的 精度 没有 画 出 来 。 





o 0 %2 DW 40 SO & 7 8 A 1%m 
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这 幅 图 显示 了 与 图 3-6 TES A ER Dh a SR AA BT ID3 算法 
产生 的 树 的 影响 。 注 意 随 着 树 结 点 的 剖 除 ,决策 树 在 测试 集合 上 的 精度 上 开 。 这 里 , 供 几 莫 用 的 验证 集合 S 
练 和 测试 集合 都 是 完全 不 间 的 


图 3-7 ”决策 树 学 习 中 错误 率 降低 修剪 的 效 漆 


如 果 有 大 量 的 数据 可 供 使 用 ,那么 使 用 分 离 的 数据 集合 来 引导 修剪 是 一 个 有 效 的 方法 。 这 个 
方法 的 主要 缺点 是 当 数据 有 限时 ,从 中 保留 一 部 分 用 作 验 证 集合 进一步 减少 了 训练 可 以 使 用 的 样 
例 。 下 一 节 给 出 了 另 一 种 修剪 方法 ,在 数据 有 限 前 许多 实际 情形 下 ,这 种 方法 很 有 效 。 人 和 人们 还 提出 
了 许多 其 他 的 技术 。 例 如 ,以 不 同 的 方式 多 次 分 割 可 供 使 用 的 数据 ,然后 将 得 到 的 结果 平均 。 
Mingers(1989b) 和 Malerba et al.(1995) 中 报告 了 对 不 同 树 修剪 方法 的 经 验 评 仿 。 
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实践 中 , 一 种 用 来 发 现 高 精度 很 设 的 非常 成 功 的 方法 为 “规则 后 修 前 "(rule post-pruning) - 
这 种 修 前 方法 的 一 个 变 体 被 用 在 C4.5 中 (Quinlan 1993),C4.5 是 从 原始 的 ID3 算法 的 派生 出 
来 的 。 规 则 后 修剪 包括 下 面 的 步骤 : 
1) 从 训练 集合 推导 出 决策 树 , 增 长 决策 酝 直 到 尽 可 能 好 地 拟 合 训练 数据 ,允许 过 度 拟 从 
Rit 

2) 将 决策 树 转化 为 等 价 的 规则 集合 ,方法 是 为 从 根 结 点 到 时 子 结 点 的 每 一 条 路 径 创 建 一 
条 规则 。 

3) 通过 删除 任何 能 导致 估计 精度 提高 的 前 件 {preeonditions) 来 修 琢 (证 化 ) 每 一 条 规 册 

4) 按照 修剪 过 的 规则 的 估计 精度 对 它们 进行 排序 ,并 按 这 样 的 顺序 应 用 这 些 规 则 来 分 类 
后 来 的 实例 。 

为 了 演示 以 上 过 程 , 再 次 考虑 图 3-1 中 的 决策 树 。 和 在 “规则 后 稀 前 "算法 中 ,为 树 中 的 每 个 
叶子 结 点 产生 一 条 规则 。 从 根 结 点 到 叶子 结 点 路 答 上 的 每 一 个 属性 的 测试 称 为 一 个 规则 的 先 
Aris] (ARIE) ,叶子 结 点 的 分 类 称 为 规则 的 结论 5 即 后 件 )。 例 如 ,图 3-1 PARRA- RR 
被 转换 成 规则 : 

IF ( Outlook = Sunny ) Ag Humidity = High) 
THEN FPlayTennis = No 

ETE AIMAR TE TR PA, ART PE AT , 
规则 后 修 前 算法 会 考虑 删除 先行 间 ( Outlook = Sunny) H Humidity = High). E RATER E 
妖 剪 步 又 中 使 估计 精度 有 最 大 提升 的 步 又, 然后 考虑 始 剪 第 二 个 前 件 作为 进一步 的 从 甬 步 最 ， 
如 果 某 个 修剪 步骤 降低 了 估计 精度 ,那么 这 个 步骤 不 会 筱 执行 。 

如 了 同 前 面 提出 的 ,估计 规则 精度 的 一 种 方法 是 使 用 与 训练 集 和 不 相交 的 验证 集合 a 
种 被 C4.5 使 用 的 方法 是 基于 训练 集合 本 身 评 估 和 性 能 ,但 使 用 一 种 保守 估计 ( pessimistic esti- 
mate) 来 弥补 训练 数据 有 利于 当前 规则 的 估计 偏 置 。 更 准确 地 讲 ,C4.5 通过 以 下 方法 计算 保 
守 估计 , 先 计算 规则 在 它 应 用 的 训练 样 例 上 的 精度 ,然后 假定 此 估计 精度 为 二 项 分 布 ,并 计算 
它 的 标准 差 (standard deviation)。 对 于 一 个 给 定 的 置信 区 间 , 采 用 下 界 估 计 作 为 规则 性 能 的 度 
量 (例如 ,对 于 一 个 5 免 的 置信 区 间 , 规 则 精度 被 保守 估计 为 ， 在 训练 集合 上 的 观察 精度 减 大 
1.96 乘 估 计 的 标准 差 )。 这 样 做 的 效果 是 ,对 于 大 的 数据 集 ,保守 预测 非常 接近 观察 精度 (也 
就 是 标准 差 非 常 小 ) ,然而 随 着 数据 集合 的 减 小 , 它 开始 离 观察 精度 越 来 越 远 。 虽 然 这 种 局 发 
式 方法 不 是 统计 有 效 (statistically valid) 的 ,但 是 已 经 发 现 它 在 实践 中 蚌 有 效 的 。 第 5 章 讨论 
了 统计 有 效 的 预测 均值 和 置信 区 则 的 方法 。 

为 什么 修剪 之 前 要 把 决策 树 转化 成 规则 集 呢 ” 这 样 做 主要 有 三 个 好 焰 : 

e 转化 为 规则 集 可 以 区 分 决策 结 点 使 用 的 不 同上 下 文 。 因 为 贯穿 决策 结 点 的 每 条 不 同 路 

径 产生 一 条 不 同 的 规则 ,所 以 对 于 不 同 路 径 ,关于 一 个 属性 测试 的 修剪 决策 可 以 不 同 . 
相反 ,如 果 直 接 恬 前 树 本 身 , 只 有 了 两 个 选择 ,要 么 完全 删除 决策 结 点 ,要 人 么 保留 它 的 本 来 
状态 。 

s 转化 为 规则 集 消 除了 根 结 点 附近 的 局 性 测试 和 叶 结 点 附近 的 属性 测试 的 区 别 。 于 是 避 

免 了 零乱 的 记录 问题 ,比如 ,若是 根 结 点 被 修剪 了 但 保留 它 下 面 的 部 分 子 树 时 如 何 重 新 
AAU PM 
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3.7.2 合并 连续 值 属 性 


我 们 最 初 的 ID3 定义 被 限制 为 取 离散 值 的 属性 。 首 先 , 学 习 到 的 决策 树 要 预测 的 日 标 属 
人 性 必须 是 离散 的 。 共 次 , 树 的 决策 结 点 的 属性 也 必须 是 离散 的 。 可 以 简单 地 删除 第 二 个 限制 ， 
以 便 把 连续 值 的 决策 属性 加 入 到 决策 树 中 。 这 可 以 通过 动态 地 定义 新 的 离散 值 属 性 来 实现 ， 
即 先 把 连续 值 属性 的 值 域 分 割 为 离散 的 区 间 集 合 ; 例如 ,对 于 连续 值 的 属性 4 ,算法 可 动态 
地 创建 一 个 新 的 布尔 属性 4, ,如果 4 < ,那么 为 A, 真 , 汗 则 为 假 。 惟 一 的 问题 是 如 何 选 取 
REKHA c 

举例 来 说 ,假定 我 们 希望 在 表 3-2 PAILS PRA ERTE Temperature 来 描述 
训练 样 便 。 对 于 与 决策 树 的 特定 结 点 关联 的 训练 样 例 ,进一步 假定 其 属性 Temperature 和 日 
标 属性 PlayTennis 的 值 如 下 : 


Pemperature : 40 48 Ü 72 a0 90 


Play Tennis: No No Yæ Yes Yes No 


对 属性 Temprature, Wie MITA SEF RB REDE? 我 们 无 疑 会 选择 产生 最 
大 信息 增益 的 阔 值 <。 首 先 按照 连 续 属 性 A 排序 样 例 , 然 后 确定 目标 分 类 不 同 的 相 邻 实例 ， 
于 是 我 们 可 以 产生 一 组 候选 立 值 ,它们 的 值 是 相应 的 4 值 之 间 的 中 间 值 。 可 以 证 明 产 生 最 大 
信息 增益 的 e 值 必定 位 于 这 样 的 边界 中 (Fayvyad 1991)。 然 后 可 以 通过 计算 与 每 个 候选 闪 值 
关联 的 信息 增益 评估 这 些 候选 值 。 在 当前 的 例子 中 ,有 两 个 候选 装 值 ,它们 对 上 应 于 目标 属性 
Play Tennis AR A Sy fea E Temperature 的 值 : (48 +60)/2 FI(80+90)/2, AEIR A -AiR 
` 选 属性 Temperature , 5441 Temperature 8s 的 信息 增益 ,并 选择 最 好 的 ( Temperaiure ,sa)o 
现在 这 个 动态 创建 的 布尔 属性 便 可 以 和 其 他 候选 的 离散 值 属性 一 同 “ 竞 争 " ,以 用 于 增长 决策 
树 。Fayyad & Irani(1993) 讨 论 了 这 种 方法 的 一 个 扩展 , 即 把 连续 的 属性 分 割 成 多 个 区 间 ,而 
不 是 基于 单一 环 值 的 两 个 区 闻 。Utgoff 上 Brodley(1991) 4 Murthy et al.(1994) 讨 论 了 通过 
对 几 个 连续 值 属性 的 线性 组 合 定 义 阅 值 参数 的 方法 。 


3.7.3 属性 选择 的 其 他 度量 标准 


信息 增益 度量 存在 一 个 内 在 仿 置 , 它 偏 查 具 有 较 多 值 的 属性 。 举 一 个 极端 的 例子 ,考虑 属 
性 Daie , 它 有 大 量 的 可 能 值 ( 例 如 , March 4,1979)。 要 是 我 们 把 这 个 属性 加 到 表 3-2 的 数据 
中 , 它 在 所 有 属性 中 有 最 大 的 信息 增益 。 这 是 因为 单独 Date 就 可 以 完全 预测 训练 数据 的 目标 
属性 。 于 是 这 个 篇 性 会 被 选 作 树 舶 根 结 点 的 决策 属性 并 形成 一 棵 深度 为 一 级 但 却 非常 宽 的 
机 ,这 棵 树 可 以 理想 地 分 类 训练 数据 。 当 然 ,这 个 决策 树 对 于 后 来 数据 的 性 能 会 相当 差 ,因为 
尽管 它 完美 地 分 割 了 训练 数据 ,但 它 不 是 一 个 好 的 预 注 器 (predictor) 

属性 Date 出 了 什么 问题 昵 ? 简单 地 讲 , 是 因为 太 多 的 可 能 值 必 然 把 训练 样 例 分 割 成 非常 
小 的 空间 。 因 此 ,相对 训练 样 例 , 它 会 有 非常 高 的 信息 增益 ,尽管 对 于 未 见 实例 它 是 一 个 非常 
2 A) H tp ee AE o 

以 免 这 个 不 足 的 一 种 方法 是 用 其 他 度量 而 不 是 信息 增益 来 选择 决策 属性 。 一 个 可 以 选择 
的 度量 标准 是 增益 比率 (gain ratio)( Quinlan 1986)。 增益 比率 通过 加 人 一 个 被 称 作 分 裂 信 息 
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(split information) MUR ARTEL Date 的 属性 ,分 裂 信 息 用 来 衡量 属性 分 列 数 据 的 广度 和 均 
人 $] 性 ; 
Splitinformation( 5, A) =- > zi log» 5 (3.5) 
其 中 , S: 到 S, 是 4 个 值 的 属性 4 GES 而 形成 的 e 个 样 例子 集 。 注 意 分 裂 信 息 实际 上 
就 是 3 关于 属性 4 MAA. ROE, RB RNR 5 关于 
EA Bley oy SE A iy Bl op EE o 
HS dot LR BE E et AD I AE a E BAA ERAH BOR SET EY, A 


i i Gain S$, A) 
RGU) =e nona oa SA) (3.6) 


请 注意 ,分 裂 信 息 项 阻碍 选择 值 为 均匀 分 布 的 属性 。 例 如 ,考虑 一 个 含有 n 个 样 例 的 集 
合 被 属性 4 彻底 分 割 2。 这 时 分 裂 信息 的 值 为 ogzn。 相 反 , 一 个 布尔 属性 8 分 割 同 样 的 5 
个 实例 ,如 果 怡 好 平分 两 半 ,那么 分 裂 信 息 是 1。 如 果 属 性 4 和 B 产生 同样 的 信息 增益 ,那么 
根据 增益 比率 度量 ,显然 B 得 分 更 高 。 

使 用 增益 比率 代替 增益 来 选择 属 人 忻 产 生 的 一 个 实际 问题 是 , 当 某 个 S 使 | 5,1 = I SUT, 
分 母 可 能 为 0 或 非常 小 。 如 果 某 个 属性 对 于 5 的 所 有 样 例 有 几乎 同样 的 值 , 这 时 要 么 导致 增 
益 比 率 未 定义 ,要 么 是 增益 比率 非常 大 。 为 了 避免 选择 这 种 属性 ,我 们 可 以 采用 这 样 一 些 启发 
式 规 则 ,比如 先 计算 每 个 属性 的 增益 ,然后 仅 对 那些 增益 高 过 平均 值 的 属性 应 用 增益 比率 测试 
(Quinlan 1986). 

除了 信息 增益 ,Lopez de Mantaras( 1991) 介 绍 了 另 一 种 直接 针对 上 述 问题 而 说 计 的 基于 
距离 的 {distance-based) 度 景 。 这 个 度量 标准 定 闵 了 数据 划分 间 的 一 种 距离 尺度 。 每 个 属性 的 
评估 根据 它 产 生 的 划分 与 理想 划分 (也 就 是 完美 分 类 训练 数据 的 划分 ) 间 的 距离 。 然 后 选择 划 
分 最 楼 近 完 美 划 分 的 属性 。Lopez de Mantaras (1991) 定 义 了 这 个 距离 度量 ,证 明了 它 不 偏向 
有 大 量 值 的 属性 ,并 报告 了 其 实验 研究 ,说 明 这 种 方法 产生 的 决策 树 的 预测 精度 与 增益 法 和 增 
益 比 率 法 得 到 的 结果 没有 明显 的 差别 。 而 且 这 种 距离 度量 避 侈 了 增益 比率 度量 的 实际 困难 。 
在 他 的 实验 中 ,对 于 属性 值 个 数 差异 非常 大 的 数据 集 ,这 种 方法 产生 了 效果 很 好 的 较 小 的 树 。 

此 外 ,学 者 们 还 提出 了 许多 种 属性 选择 度量 (例如 ,Breiman et al. 1984, Mingers 1989a, 
Kearns & Mansour 1996, Dietterich et al. 1996)。Mingers(1989a) 提 供 了 实验 分 析 , 比较 了 针 
对 不 同 问 题 的 几 种 选择 度量 的 有 效 度 。 他 报告 了 使 用 不 僻 属 性 选择 度量 产生 的 未 修剪 决策 树 
的 大 小 的 显著 差异 。 然 而 在 他 的 实验 中 ,不 同 的 属性 选择 度量 对 最 终 精度 的 影响 小 于 后 修 前 
的 程度 和 方法 对 最 终 精 度 的 影响 。 


3.7.4 处 理 缺 少 属性 慎 的 训练 样 例 


在 某 些 情况 下 ,可 供 使 用 的 数据 可 能 缺少 某 些 属 性 的 值 。 例 如 ,在 医学 领域 我 们 希望 根据 
多 项 化 验 指标 预测 患者 的 结果 ,然而 可 能 仅 有 部 分 患者 具有 验 面 结果 。 在 这 种 情况 下 ,经 藻 短 
要 根据 此 属性 值 已 知 的 其 他 实例 来 估计 这 个 缺少 的 属性 便 。 














E CO 分 成 n 组 , 即 一 个 样 例 -- 组 。 一 一 译 者 注 。 
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考虑 以 下 情况 ,为 了 评估 属性 4 是 否 是 决策 结 点 = 的 最 佳 测试 属性 ,要 计算 决策 树 在 该 
结 点 的 信息 增益 Gain(S, A) BEz, cD S 中 的 一 个 训练 样 例 , 并 且 其 属性 4 的 值 
A(x RAL 
处 理 缺 少 局 性 值 的 一 种 策略 是 赋 给 它 结 点 n 的 训练 样 例 中 该 属性 的 最 常见 值 。 男 一 种 
策略 是 可 以 赋 给 它 结 点 n 的 被 分 类 为 e(x) 的 训练 样 例 中 该 属性 的 最 常见 值 。 然 后 使 用 这 个 
帖 计 值 的 训练 样 例 就 可 以 被 现 有 的 决策 怪 学 习 算法 使 用 了 。Mingers(1989a) 分 析 了 这 个 荣 
Hg. 
第 一 种 更 复杂 的 策略 是 为 A 的 每 个 可 能 值 赋予 一个 概率 ,而 不 是 简单 地 将 最 请 见 的 值 赋 
给 Ala). 根据 结 点 n 的 样 例 上 A 的 不 同 值 的 出 现 频率 ,这 些 概率 可 以 被 再 次 估计 。 例 如 ， 
给 定 一 个 布尔 属性 4 ,如 果 结 点 £ 包含 6 个 已 知 4 =1 和 4 个 4 =0 的 样 全 ,那么 Alx) 
的 概率 是 0.6, A(x) =0 的 概率 是 0.4。 于 是 ,实例 x AY 60% RAP ACB A = 工 的 分 文 ,40 和 被 
分 配 到 另 一 个 分 支 。 这 些 片 断 样 例 (fractional examples) 的 目 的 是 计算 信息 增益 , 男 外 ,如 果 有 有 
第 二 个 扇 少 值 的 属性 必须 被 测试 ,这 些 样 例 可 以 在 后 继 的 树 分 支 中 被 进一步 细 分 。 上 述 的 样 
倒 的 片断 也 可 以 在 学 习 之 后 使 用 ,用 来 分 类 缺少 属性 的 新 实例 。 在 这 种 情况 下 ,新 实例 的 分 类 
就 是 最 可 能 的 分 类 ,计算 的 方法 是 通过 在 树 的 叶 结 点 对 按 不 同方 式 分 类 的 实例 片断 的 权 求 和 ，; 
C4.5( Quinlan 1993) (i Fe EAB aR A PE 


3.7.5 ”处理 不 同 代价 的 属性 


在 某 些 学 习 任 务 中 ,实例 的 属性 可 能 与 代价 相关 。 例 如 ,在 学 习 分 类 疾 重 时 ,我们 可 能 以 
这 些 属 性 来 描述 患者 :体温 . 活 组 织 切片 检查 .脉搏 . 抽 液 化 验 结果 等 。 这 些 属性 在 代 押 方面 
差别 非常 大 ,不 论 是 所 需 的 费用 还 是 患者 要 承受 的 不 适 。 对 于 这 样 的 任务 ,我 们 将 优先 选择 尺 
可 能 使 用 低 代 价 属性 的 决策 树 , 仅 当 需 要 产生 可 靠 的 分 类 时 才 依 赖 高 代价 属性 。 

通过 引入 一 个 代价 项 到 属性 选择 度量 中 ,可 以 使 ID3 算法 考虑 属性 代价 。 例 如 ,我 们 可 
以 用 信息 增益 除 以 属性 的 代价 ,以 使 低 代 价 的 属性 会 被 优先 选择 。 虽 然 这 种 代价 敏感 度 匡 不 
保证 找到 最 优 的 代价 敏感 决策 树 ,但 它们 确实 使 搜索 偏 置 到 有 利于 低 代 价 属性 。 

Tan & Schlimmer(1990) 和 Tan(1993) 撒 述 了 一 种 这 样 的 方法 SHEE BLA Las AA 
任务 中 。 在 这 个 任务 中 ,机 器 人 必须 根据 这 些 物体 如 何 能 被 它 的 机 械 手 抓 住 ,从 而 学 会 分 辩 涉 
同 的 物体 。 这 种 情况 下 ,属性 对 应 于 机 器 人 身上 的 移动 声 纳 获得 的 不 同 传感器 读数 。 属 性 的 
代价 通过 定位 或 操作 声 纳 来 获取 属性 值 所 需 的 秒 数 来 衡量 。 他 们 证 明 , 通 过 用 下 面 的 度量 代 
蔡 信 息 增 益 属 性 选择 度量 ,学 到 了 更 加 有 效 的 识别 策略 ,同时 设 有 损失 分 类 的 精度 。 


Gain?(S,A) 
Cost( A) 


Nunez(1988) 中 描述 了 一 种 有 关 的 方法 ,并 把 它 应 用 到 学 习 医 疗 诊断 规则 上 。 这 里 属性 
是 具有 不 同 代价 的 不 同 症状 和 化 验 测 试 。 它 的 系统 使 用 了 稍 有 不 同 的 属性 选择 度量 : 


D Gaint S.A) .1 
(Cost( A) +1)" 
HEH, we [0,1] 是 一 个 常数 ,决定 代价 对 信息 增益 的 相对 重要 性 。 Nunez{ 1991) 针 对 一 系 
列 任务 给 出 了 这 两 种 方法 的 经 验 对 比 。 
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3.8 小 结 和 朴 充 读物 


本 章 的 要 点 包括 : 


s 决策 树 学 习 为 概念 学 习 和 学 习 其 他 离散 值 的 卫 数 提供 了 一 个 实用 的 方法 。ID3 系列 算 
法 使 用 从 根 向 下 增长 法 推断 决策 树 , 为 每 个 要 加 入 树 的 新 决策 分 支 仿 禁地 选择 最 佳 的 
属性 。 

e ID3 算法 搜索 完整 的 假设 空间 (也 就 是 说 ,决策 树 空间 能 够 表示 定义 在 离散 值 实例 上 的 
任何 离散 值 函数 )。 所 以 它 避 免 了 仅 考虑 有 限 的 假设 集合 的 方法 的 主要 问题 : 目标 函 
数 可 能 不 在 假设 空间 中 。 

© Sa ID 算法 中 的 归纳 己 明 包 括 优 先 选择 较 小 的 树 , 也 话 是 说 , 它 通 过 对 假设 空间 的 
搜索 增长 树 ,使 树 的 大 小 为 正好 能 分 类 已 有 的 训练 样 例 。 

过 度 拟 合 训练 数据 是 决策 树 学 习 中 的 重要 问题 。 因 为 训练 样 例 仅仅 是 所 有 可 能 实例 的 
一 个 样本 , 问 民 增加 分 支 可 能 提高 在 训练 样 例 上 的 性 能 ,但 却 降 低 在 训练 实例 外 的 其 他 
实例 上 的 性 能 。 因 此 ,后 修了 驮 决策 树 的 方法 对 于 避 倪 决策 树 学 习 中 (和 其 他 使 用 优选 侯 
痢 的 归纳 推理 方法 ) 的 过 度 拟 合 是 很 重要 的 。 

o 对 于 基本 ID3 算法 ,研究 者 已 经 开发 了 了 大量 的 扩展 。 其 中 包括 后 修 能 的 方法 ;处理 实数 
值 的 属性 ;容纳 馈 少 属性 值 的 训练 样 例 ; 当 有 了 新 的 训练 实例 时 递增 地 和 精 化 决策 树 ;使 
用 信息 增益 之 外 的 其 他 属性 选择 度量 ;考虑 与 实例 属性 关联 的 代价 。 

关于 决策 树 学 习 的 最 早 的 著作 有 Hunt 的 概念 学 习 系 统 (Concept Learning System, CLS) 

(Hunt et al. 1966) 以 及 Friedman 和 Breiman 的 CART 系统 (Friedman 1977, Breiman et al. 
1984), Quinlan 的 ID3 系统 (Quinlan 1979,1983) 构 成 了 本 章 讨论 的 基础 。 决 策 树 学 习 的 其 他 
时 期 著作 包括 ASSISTANT( Kononenko et al. 1984,Cestnik et 引 ，1987)。 决 策 树 归纳 算法 在 
多 数 计 算 机 平台 上 的 实现 可 用 商业 方式 得 到 . 
关于 决策 树 归 纳 的 进一步 细节 ,Quinlan(1993) 写 了 -本 精彩 的 著作 ,其 中 讨论 了 很 多 实 

践 问题 ,并 提供 了 C4.5 算法 的 代码 。Mingers(1989a) 和 Buntine & Niblett(1992) 提 供 了 比较 
不 同属 性 选择 度量 的 实验 研究 。Mingerst1989b) 提 供 了 对 不 同 收 前 策略 的 研究 ， 比 较 决 策 树 
学 习 和 其 他 学 习 方 法 的 试验 可 在 众多 的 论 交 中 找到 ,包括 Dietterich et al. 1995, Fisher & 
McKusick 1989, Quinlan 1988a, Shavlik et al. 1991, Thrun et al. 1991 LÆ Weiss and 
Kapouleas 1989, 
习题 
3.1 曾 出 表示 下 面 布尔 沙 数 的 决策 树 : 

(a A ADB 

(b)AV[BAC] 

(c}A XORB 

(DLAABIVLCAD] 
3.2 考虑 下 面 的 训练 样 例 集合 : 
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Ca) 请 计算 这 个 训练 样 例 集合 关 十 日 标 卫 数 分 类 的 炳 。 

{pb) 请 计算 属性 a. 相对 这 些 训 练 样 例 的 信息 增益 。 

判断 以 下 命题 的 正 误 ， 如 果树 D2 是 从 树 Dl 加 工 而 成 的 ,那么 DI more _ general than 

D2, BE DI 和 D2 是 表示 任意 布尔 函数 的 决策 树 ,而 且 当 ID3 能 把 Di 扩展 成 D2 时 ， 

则 D2 是 Dl 加 工 而 成 的 。 如 果 正 确 , 给 出 证 明 ; 如 果 错 误 , 举 出 一 个 及 例 (more _ general 

_ than FER 2 HEM). 

ID3 仅 寻 找 一 个 一 致 的 假设 ,而 候选 消除 算法 寻找 所 有 一 致 的 假设 。 考 虑 这 两 种 学 习 算 

法 间 的 对 应 关系 。 

(a) 假 定 给 定 EnjoySport 的 四 个 训练 桩 例 , 画 出 ID3 学 习 的 决策 树 。 其 中 EnyoySport H 
标 概 念 列 在 第 2 章 的 表 2-1 中 。 

(pb) 学 习 到 的 决策 树 和 从 同样 的 样 俩 使 用 变型 空间 算法 得 到 的 变型 空间 (参见 第 2 前 
图 2-3) 间 有 什么 关系 ? 树 等 价 于 变型 空间 的 -个 成 员 吗 ? 

Ce) 增加 下 面 的 训练 样 例 ,计算 新 的 决策 树 。 这 -…- 次 ,显示 出 增长 树 的 每 一 步 中 每 个 候选 
属性 的 信息 增益 。 


Sky Air-Temp Hamidily Wind Water Forecast Enyjoy-A part! 








a da a_i e H 


Sunny Farm Normal Weak Warm Same Na 


(d) 假 定 我 们 希望 设计 一 个 学 习 器 , 计 它 搜索 决策 树 假设 空间 (类 似 ID3) 并 寻找 与 数据 
一 致 的 所 有 假设 (类 似 候 选 消除 )。 简 单 地 说 ,我 们 希望 应 用 候选 消除 算法 搜索 决策 
树 假设 空间 。 写 出 经 过 表 2-1 的 第 一 个 训练 样 例 后 的 5 和 6 集合。 注意 ,S$ 必须 包 
含 与 数据 一 致 的 最 特殊 的 决策 树 , 而 6 必须 包含 最 一 般 的 。 说 明 直 到 第 二 个 训练 样 
例 时 S Al G 集合 是 如 何 被 精 化 的 (可 以 去 掉 描述 相同 概念 而 语法 不 同 的 树 )。 人 在 把 
候选 消除 算法 应 用 到 决策 树 假 设 空间 时 ,预计 会 碰 到 什么 样 的 困难 ?” 
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第 4 章 人 工 神 经 网 络 


人 工 神 经 网 络 ( Artificial Neural Networks,aANN) 提 供 了 一 种 普遍 而 且 实 用 的 方法 从 样 例 
中 学 习 值 为 实数 .离散 值 或 向 量 的 函数 。 像 反 向 传播 BACKkPROPAGATION) 这 样 的 算法 ,使 用 
梯度 下 降 来 调节 了 网 络 参 数 以 最 佳 拟 合 由 输 人 -输出 对 组 成 的 训练 集合 。ANN FHH TRR 
据 中 的 错误 健壮 性 很 好 ,上 且 已 被 成 功 地 应 用 到 很 多 领域 ,例如 视觉 场景 分 析 (interpreting visual 
scenes) , 语 育 识别 以 及 机 器 人 控制 等 , 


4.1 简介 


神经 网 络 学 习 方 法 对 于 退 近 实数 值 .离散 值 或 同 量 值 的 自 标 孙 数 提供 了 一 种 健壮 性 很 蝇 
的 方法 。 对 于 某 些 类 型 的 问题 ,如 学 习 解 释 复 杂 的 现实 其 界 中 的 传感器 数据 ,人 工 神经 网 络 是 
目前 知道 的 最 有 效 的 学 习 方 法 。 例 如 ,本 章 要 描述 的 上 反 向 传播 算法 已 在 很 多 实际 的 问题 中 取 
得 了 惊人 的 成 功 , 比如 学 习 识 别 手写 字符 {LeCun et al. 1989) .学 习 识 别 口 语 (Lang et al. 
1990) 和 学 习 识 别人 脸 (Cottrell 1990), Rumelhart et al.(1994) 提 供 了 对 实际 应 用 的 调查 ， 


生物 学 动机 


人 工 神 经 网 络 (ANN) 的 研究 在 -~… 定 程度 上 受到 了 生物 学 的 局 发 ,因为 生物 的 学 汪 系 统 是 
由 相互 连 接 的 神经 元 (neuron) 组 戌 的 异常 复 林 的 网 络 。 而 人 工 神 经 网 络 与 此 大 体 相 似 , 它 二 
由 一 系列 简单 的 单元 相互 密集 连接 构成 的 ,其 中 每 一 个 单元 有 一 定数 量 的 实 值 输 和 人 (可 能 是 其 
他 单元 的 输出 ), 并 产生 单一 的 实数 值 输出 (可 能 成 为 其 他 很 多 单元 的 输入 )。 

为 了 加 深 对 这 种 类 比 的 认识 ,让 我 们 考虑 一 些 来 自生 物 学 的 事实 。 例 如 , 据 佑 计 人 类 的 人 
脑 是 由 大 约 10 个 神经 元 相互 连接 组 成 的 密集 网 络 ,平均 每 一 个 神经 元 与 其 他 10 个 神经 元 
相连 。 神 经 元 的 活性 通常 征 通 阿 其 他 神经 元 的 连接 激活 或 抑制 。 目 前 知道 的 最 快 的 神经 邱 转 
换 时 间 是 在 10” 秘 级 别 一 一 与 计算 机 的 转换 时 间 107 “ 秒 相 比 慢 很 多 。 然 而 人 类 能 够 以 惊人 
的 速度 做 出 复杂 度 掠 人 的 决策 。 例 如 ,你 要 通过 视觉 认 出 自己 的 母亲 大 约 需 要 10” 秒 。 注 意 
在 这 10- 秒 的 间 障 内 ,被 激发 的 神经 元 序列 不 长 于 数 折 步 , 因 为 单个 神经 元 的 转换 速度 已 知 . 
这 个 事实 使 很 多 人 推测 ,生物 神经 系统 的 信息 处 理 能 力 一 定 得 益 于 对 分 布 在 大 量 神经 元 上 的 
信息 表示 的 高 度 并 行 处 理 。ANN 系统 的 一 个 动机 就 是 获得 这 种 基于 分 布 表示 的 栅 度 并 行 算 
法 。 大 多 数 的 ANN 软件 在 串 行 机 器 上 仿真 分 布 处 理 ,然而 更 快 版 本 的 算法 也 已 经 夸 启 度 并 
行 机 和 特别 为 ANN 应 用 设计 的 专用 硬件 上 实现 了 。 

由 于 ANN 只 是 在 一 定 程度 上 受 生 物 神经 系统 的 启发 ,所 以 ANN 并 未 模拟 生物 神经 系统 
中 的 很 多 复杂 特征 ,而 且 已 经 知道 ANN 的 很 多 特征 与 生物 系统 也 是 不 一 致 的 。 例 如 ,我 们 考 
虚 的 ANN ,每 个 单元 输出 单一 的 不 变 值 ,然而 生物 神经 元 输出 的 是 复杂 的 时 序 脉冲 。 

长 期 以 来 ,人 工 神经 网 络 领域 的 研究 者 分 为 两 个 团体 。 一 个 团体 的 目标 是 使 用 ANN 全 
究 和 模拟 生物 学 习 过 程 。 另 一 个 团体 的 目标 是 获得 高 效 的 机 器 学 习 算 法 ,不 管 这 种 算法 是 各 
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反映 了 牛 物 过 程 。 在 本 书 中 ,我 们 的 兴趣 与 后 一 团体 一 致 ,所 以 我 们 不 会 再 把 注意 力 用 在 生物 
AHE. BRB REA ANN 模拟 牛 物 系统 的 更 多 信息 ,请 参考 Churchland & Sejnowski 
(1992) .Fornetzer et al.{1994) 和 Gabriel & Moore( 1990), 


4.2 神经 网 络 表示 


Pomerleau( 1993) 的 ALVINN 系统 是 ANN 学 习 的 - -个 由 型 实例 ,这 个 系统 使 用 一 个 学 习 到 的 
ANN 以 下 党 的 速度 在 高 速 公路 上 驾驶 汽车 ，ANN 的 输入 是 一 个 30x 32 像素 的 网 格 , 像 素 的 亮度 
kA :个 安装 在 车 辆 上 的 前 向 摄像 机 。ANN 的 输出 是 车 辆 行进 的 方向 。 这 个 ANN 通过 模仿 入 类 
驾驶 时 的 操纵 命令 进行 训练, 训练 过 程 大 约 5 分钟 。ALYINN 用 学 习 到 的 网 络 在 高 速 公 路 上 以 70 
英里 时 速成 功 地 驾驶 了 0 英里 (在 分 行 公路 的 左 车 道行 驶 ,同时 有 其 他 和 车辆 )。 

图 4-1 画 出 了 ALVINN 系统 的 -… 个 版 本 中 使 用 过 的 神经 网 络 表 示 , 这 也 是 很 多 ANN 系 
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ALVINN 系统 使 用 反 向 传播 算法 来 学 习 驾 驶 汽车 ( 上- 图) , 它 的 最 高 时 速达 到 每 小 时 70 RE AAs TOR FAA 
像 机 的 图 像 是 如 何 被 映射 到 960 个 神经 网 络 输入 的 ,这 些 输入 又 前 馈 到 4 个 隐藏 单元 ,再 连接 到 30 个 输出 单元 。 网 
绪 输 出 编 玛 了 推荐 的 驾驶 方向 。 右 图 显示 了 网 络 中 一 个 隐藏 单元 的 权 值 。 进 人 这 个 隐藏 单元 的 加 x 3 个 松 什 显示 
在 大 的 矩阵 中 ,白色 的 方 框 表示 正 权 值 而 里 色 的 方 杠 表示 负 权 值 。 从 这 个 隐藏 单元 到 入 Ma OCR Rae 
这 个 大 矩阵 上 方 的 较 小 矩形 中 。 从 这 些 输出 权 值 可 以 看 出 ,激活 这 个 隐藏 单元 会 促使 车 向 左 转 。 


图 4-1 学 当 驾 狐 汽 车 的 神经 网 络 
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统 的 典型 表示 方式 。 神 经 网 络 显 示 在 图 的 左边 ,输入 的 摄像 机 图 像 在 它 的 下 边 。 网 络 图 中 每 
个 结 点 对 庶 一 个 了 网络 单元 (unit) 的 输出 ,而 从 下 方 进入 结 点 的 实 线 为 其 输入 。 可 以 看 到 ,共有 
四 个 单元 直接 从 图 像 接 收 所 有 的 30 x 32 个 像素 。 这 四 个 单元 被 称 为 “隐藏 "单元 ,因为 它们 的 
输出 侈 在 网 络 内 部 ,不 是 整个 网 络 输出 的 一 部 分 .每 个 隐藏 单元 根据 960 个 输入 的 加 权 和 和 计 
算得 到 单一 的 实数 值 输出 。 然 后 这 四 个 隐藏 单元 的 输出 被 用 作 第 二 层 30 个 “输出 单元 "的 输 
和 人。 每 个 输出 单元 对 应 一 个 特定 的 站 驶 方向 ,这 些 单元 的 输出 决定 哪 一 个 驾驶 方向 是 被 最 强 
烈 推 荐 的 。 

图 4-1 中 的 右 侧 部 分 描绘 的 是 一 些 学 习 得 到 的 权 值 ,它们 与 这 个 ANN 的 四 个 隐藏 单元 之 
一 相 联 系 。 下 面 的 黑白 方 格 大 和 矩阵 描述 的 是 从 30 x 32 像素 输 和 人 到 这 个 隐藏 单元 的 权 值 。 这 
里 , 白 方 格 表示 正 权 值 , 黑 方 格 表示 负 权 值 , 方 格 的 大小 表示 权 的 数量 。 大 矩阵 正 上 方 的 较 小 
的 矩形 表示 从 这 个 隐藏 单元 到 30 个 输出 单元 的 权 ， 

ALYINN 的 网 络 结构 是 很 多 ANN 中 的 典型 结构 。 所 有 单元 分 层 下 连 形成 了 一 个 有 辐 无 
环 图 。 通常, ANN 图 的 结构 可 以 有 很 多 种 类 型 一 一 无 环 的 或 有 环 的 ,有 问 的 或 无 向 的 。 本 章 
集中 讨论 以 反 向 传播 算法 为 基础 的 最 常见 和 最 实用 的 ANN 方法 。 反 向 传播 算法 很 定 网 络 是 
一 个 固定 结构 ,对 应 一 个 有 向 图 ,可 能 包含 环 。ANN 学 习 就 是 为 图 中 的 每 ~-… 条 边 选 取 权 值 。 
尽管 某 种 类 型 的 循环 是 允许 的 ,大 多 数 的 实际 应 用 都 采用 无 环 的 前 馈 网 络 , 与 ALVTNN 使 用 
的 网 络 结构 相似 。 


4.3 ” 遂 合 神经 网 络 学 习 的 问题 


ANN 学 习 非 常 适 合 于 这 样 的 问题 : 训练 集合 为 含有 了 噪声 的 复杂 传感器 数据 ,例如 来 自 摄 
像 机 和 麦克 风 的 数据 。 它 也 适用 于 需要 较 多 符号 表示 的 问题 ,例如 第 3 章 讨论 的 决策 树 学 习 
任务 ， 这 种 情况 下 ANN 和 决策 树 学 习 毕 常 产 生 精 度 大 体 相 当 的 结果 。 人 可 参见 Shavlik et al. 
(1991) 和 Weiss,5., & Kapouleas,1.(1989) 中 关于 决策 树 和 ANN 学 习 的 实验 比较 。 反 向 传播 
算法 是 最 常用 的 ANN 学 习 技 术 。 它 适合 上 共有 以 下 特征 的 问题 ， 
s 实例 是 用 很 多 "属性 - 值 "对 表示 的 : 要 学 习 的 目标 畏 数 是 定 闵 在 可 以 用 向 量 描述 的 实 
例 之 上 的 ,向 量 由 预先 定义 的 特征 组 成 ,例如 ALYINN 例子 中 的 像素 值 。 这 些 输入 属 
性 之 间 可 以 高 度 相关 ,也 可 以 相互 独立 输入 值 可 以 是 任何 实数 。 
e 目标 函数 的 输出 可 能 是 离 巩 值 、 实 数值 或 者 由 落 干 实数 属性 或 离散 属性 组 成 的 向 量 : 例 
如 ,在 ALVINN 系统 中 输出 的 是 30 个 属性 的 向 量 ,每 一 个 分 量 对 应 一 个 建议 的 驾驶 方 
向 。 每 个 输出 值 是 0 和 1L 之 间 的 某 个 实数 ,对 应 于 在 预测 相应 四 融 方 向 时 的 署 依 度 
{confidence)。 我 们 也 可 以 训练 一 个 单一 网 络 , 同 时 输出 行驶 方向 和 建议 的 加 速度 ,这 
只 要 简单 地 把 编码 这 两 种 输出 预测 的 问 量 连接 在 一 起 就 可 以 了 。 
© 训练 数据 可 能 包含 错误 : ANN 学 习 算法 对 于 训练 数据 中 的 错误 有 非常 好 的 健壮 性 ， 
和 可 容忍 长 时 间 的 训 幼 : 网 络 训练 算法 通常 比 像 决策 树 学 习 这 样 的 算法 需要 更 长 的 训练 
时 和 但。 训练 时 间 可 能 从 几 秘 钟 到 斤 小 时 ,这 要 看 网 络 中 权 值 的 数量 、 要 考虑 的 训练 实例 
的 数量 以 及 不 同学 习 算法 参数 的 设置 等 因素 。 
9 可 能 需要 快速 求 出 目标 函数 值 ; 尽管 ANN 的 学 习 时 间 相 对 较 长 ,但 对 学 习 到 的 网 络 求 
值 以 便 把 网 络 应 用 到 后 续 的 实例 通常 是 非常 快速 的 。 例 如 ,ALVINN 在 村 辆 向 前 行驶 
时 ,每 秒 应 用 它 的 神经 网 络 若 干 次 ,网 不 断 地 更 新 驾驶 方向 。 
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@ 人 类 能 否 理解 学 到 的 目标 函数 是 不 重要 的 ;神经 网 络 方法 学 习 到 的 权 值 经 常 是 人 类 难 
以 解释 的 。 学 到 的 神经 网 络 比 学 到 的 规则 难以 传达 给 人 类 ， 

这 一 童 的 其 余部 分 是 这 样 组 织 的 ， 我们 先 讨论 训练 单个 单元 的 学 习 算 法 ,同时 介绍 组 成 
神经 阿 络 的 所 种 主要 单元 ,包括 感知 器 perceptron) , 2 FE 7G (linear unit) 和 sigmoid 单元 
(sigmoid unit). REA HIRT He 2B Feo wy A EPS BD EB, HEEL — 
的 问题 ,比如 ANN 的 表征 能 力 、 假 设 空间 搜索 的 本 着 特征 ,过度 拟 合 问题 以 及 反 向 传播 算法 
的 变 体 。 本 章 也 给 出 了 一 个 应 用 反 向 传播 算法 识别 人 脸 的 详细 例子 ,指导 读者 如 何 取得 这 个 
例子 的 数据 和 代码 并 进一步 实验 。 


4.4 感知 器 


一 种 类 型 的 ANN 系统 是 以 被 称 为 感知 器 (perceptron) 的 单元 为 基础 的 ,如 图 4-2 所 示 。 
感知 器 以 一 个 实数 值 向 量 作为 输入 ,计算 这 些 输入 的 线性 组 合 ,然后 如 果 结 果 大 于 某 个 净值 ， 
就 输出 1 ,否则 输出 - 1。 更 精确 地 ,如 果 输 和 人 为 xi 到 x, ,那么 感知 器 计算 的 输出 为 : 

] if wot wy, x, WI t+ wax, >O 


Oa ee) -| 


=l otherwise 


其 中 每 一 个 wi 是 一 个 实数 常量 ,或 叫做 权 值 ( weight) ,用 来 决定 输入 x; 对 感知 器 输出 的 
页 献 率 。 请 注意 ,数量 ( - wo) 是 一 个 阅 值 , 它 是 为 了 使 感知 器 输出 1 , 输 大 的 加 权 和 wx, + 
Wito +t + we, HABAN BEL . 





H 
pa 1 if Hew; >0 
-1 otherwise 


图 4-2 感知 器 


为 了 简化 表示 ,我 们 假想 有 一 个 附加 的 常量 输 和 人 xo = 1 那么 我 们 就 可 以 把 上 边 的 不 等 式 
TYD owa >0, 或 以 向 量 形式 写 为 wx >0。 为 了 简短 起 见 ,我 们 有 时 会 把 感知 器 函数 写 
为 : 

olx) =sgn( wx) 

Hp: 

l if y> 0 
sgnly) | | otherwise 

学 习 一 个 感知 器 意味 着 选择 权 wy, ..., w, 的 值 。 所 以 感知 器 学 习 要 考虑 的 候选 假设 
空间 H 就 是 所 有 可 能 的 实数 值 权 向 量 的 集合 。 

H= |www ERD] 
44.4 RATOREN 


我 们 可 以 把 感知 器 看 作 是 n 维 实例 空间 ( 即 点 空间 ) 中 的 超 平面 决策 面 。 对 于 趣 平 面 一 
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删 的 实例 ,感知 器 输出 1 A Se -1R 4-3 A, KP RRP A E 
wee =O. 当然 , 某 些 正 反 样 例 集 合 不 可 能 被 任 一 超 平面 分 割 . 那些 可 以 被 分 割 的 称 为 线性 
可 分 (linearly separable) 样 例 集合 . 

单独 的 感知 器 可 以 用 来 表示 很 多 布尔 函数 。 例 如 ,假定 用 iM- 基 假 ) 表 示 布 尔 值 ， 
那么 使 用 一 个 有 两 输入 的 感知 占 来 实现 与 函数 (ANDJ) 的 一 种 方法 是 设置 权 wo = -0.8 #H 
ww| = 2o=0.5。 如 果 用 这 个 感知 器 来 表示 或 蝎 数 (COR) PRA R BREE MIA wy = -0.3. 
事实 上 ,AND 和 OR 可 被 看 作 m-of-n 函数 的 特例 : 也 就 是 要 使 函数 输出 为 真 ,那么 感知 器 的 
n PRA HBP m 个 必须 为 直 ，0OR BARN om = 1, AND 图 数 对 应 于 man, FER m- 
of-n 函数 可 以 很 容易 地 用 感知 器 表示 ,只 要 设置 所 有 输入 的 权 为 同样 的 值 ( 如 0.5) ,然后 据 此 
恰当 地 设置 周 值 . 

感知 器 可 以 表示 所 有 的 原子 布 乐 pa AY primitive boolean function): “9.8%. SJE NAND) 
和 或 非 4UNOR)。 然 而 遗憾 的 是 ,一 些 布尔 函数 无 法 用 单 — BY R H at eS , BG BB PRK 
(XOR), E HETH rix: 时 输出 为 1。 请 注意 网 4-3b 中 线性 不 可 分 的 训练 样本 集 对 应 于 
异 或 图 数 。 





a) 一 组 训练 样 例 和 “个 能 正确 分 类 这 些 磁 例 的 感知 器 雇 策 和 面 ，b)- -级 非 线 性 下 分 的 调 练 样 例 { 志 就 是 不 能 用 和 性 
- -直线 正确 分 类 的 样 例 )。*, 和 x; 是 感知 器 的 输 和 人 ，”+“ 圾 沙 开 例 ，- RRR h 


图 43 是 输 入 感知 器 袁 示 的 决策 后 


感知 器 表示 与 .或 .与 非 \ 或 非 的 能 力 是 很 重要 的 ,因为 所 有 的 布尔 东 数 都 可 上 表示 为 基于 这 
些 原 子 函 数 的 互 连 单元 的 某 个 网 络 。 事 实 上 , 仅 用 两 层 深度 的 感知 器 网 络 就 可 以 表 小 所 有 的 
布尔 蝴 数 ,在 这 些 网 络 中 输入 被 送 到 多 个 单元 ,这 些 单 元 的 输出 被 输 人 到 第 二 级 ,也 是 最 襄 一 
级 。 一 种 方法 是 用 析 权 范式 (disjunetive normal form) 也 就 是 对 输入 和 它们 的 否定 的 先进 行 
合 取 ,再 对 这 组 合 取 式 进行 析 取 ) 来 表示 布尔 叮 数 ,注意 ,要 把 -个 AND 感知 如 的 输入 求 反 ， 
只 要 简单 地 改变 相应 输入 权 的 符号 。 

央 为 赋值 单元 的 网 络 可 以 表示 大 量 的 函数 ,而 单独 的 单元 不 能 做 到 这 一 点 ,所 以 通常 我 们 
感 兴趣 的 是 学 习 阔 值 单元 组 成 的 多 层 网 络 。 


4.4.2 感知 器 训练 法 则 


最 然 我 们 的 目的 是 学 习 由 多 个 单元 互 连 的 网 络 ,但 我 们 还 是 要 从 如 何 学 习 单 个 感知 发 的 
权 值 十 始 。 淮 确 地 说 ,这 里 的 学 习 任 务 是 决定 一 个 权 向 量 , 它 可 以 使 感知 器 对 于 给 定 的 训练 尾 


例 输出 正确 的 1 或 ~ 1。 
已 经 知道 有 几 种 解决 这 个 学 习 任 务 的 算法 。 这 里 我 们 考虑 两 种 : 感知 器 法 则 和 delta 法 
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(delta rule} EF 1 BEARS PEA ea i Re DEAE LMS 的 一 个 变 体 )。 这 两 种 算法 
保证 收 全 到 可 接受 的 假设 ,在 不 闻 的 条 件 下 收敛 到 的 假设 略 有 不 同 。 这 两 种 方法 对 于 ANN 
是 很 重要 的 ,因为 它们 提供 了 学 习 多 个 单元 构成 的 网 络 的 基础 。 

为 得 到 可 接受 的 权 向 量 ,一 种 办 法 是 从 随机 的 权 值 开始 ,然后 反复 地 应 用 这 个 感知 器 到 每 
个 训练 样 例 , 只 要 它 误 分 类 样 例 就 修改 感知 器 的 权 值 。 重 复 这 个 过 程 , 直 到 感知 器 正确 分 类 所 
ATAU BH), BE A AE SS J BS] EK) (perceptron training rule) 来 修改 权 值 ,也 就 是 修 
改 与 输入 x, 对 应 的 权 w, PEM : 

w Ew, HAW, 

Hp: 

Aw,=9lt-o)x, 

这 里 上 是 当前 训练 样 例 的 目标 输出 ,o 是 感知 器 的 输出 .7y 是 一 个 正 的 常数 称 为 学 习 速 率 
(learning rate)。 学 习 速 率 的 作用 是 缓和 每 一 步调 整 权 的 程度 。 它 通常 被 说 为 一 个 小 的 数值 
(例如 0.1) ,而 且 有 时 会 使 其 随 着 权 调 整 次 数 的 增加 而 衰减 。 

为 作 么 这 个 更 新 法 则 会 成 功 收 敏 到 正确 的 权 值 呢 ? 为 了 得 到 直观 的 感觉 ,考虑 -- 些 特例 。 
假定 训练 样本 已 被 感知 器 正确 分 类 。 这 时 ,(: - o) 是 0, 这 使 Aw, 为 0, 所 以 没有 权 值 被 修改 ， 
而 如 果 当 目标 输出 是 +1 时 ,感知 器 输出 一 个- 1, 这 种 情况 下 为 使 感知 器 输出 一 个 + 1 而 不 是 
- 1, 权 值 必须 被 修改 以 增 大 zx 的 值 。 例 如 ,如 果 x; > 0, 那 么 增 大 w, 会 使 感知 器 更 接近 正 
确 分 类 的 这 个 实例 。 注 意 ,这 种 情况 下 训练 法 则 会 增长 wv,, 因 为 (1 -0o)、w Ma; 都 是 正 的 。 
例如 ,如果 xi =0.8,7=0.1,5=1, 并 且 o= - 1, 那么 权 更 新 就 是 Auw;= Wi-o)xi=0.1(1- 
(-1))0.8=0.16。 另 一 方 而 ,如 果 != -1M o=1, RAMEN x; 关联 的 权 值 会 被 减 小 而 不 
是 增 大 。 

事实 上 可 以 证 明 ,在 有 眼 次 地 使 用 感知 器 训练 法 则 后 ,上 面 的 训练 过 程 会 收 伍 到 一 个 能 下 
确 分 类 所 有 训练 样 例 的 权 向 量 ,前 提 是 训练 冬 例 线性 可 分 ,并 且 使 用 了 充分 小 的 7{ 参 见 
Minskey & Papert 1969)。 如 果 数 据 不 是 线性 可 分 的 ,那么 不 能 保证 训练 过 程 收 化 。 


4.4.3 梯度 下 降 和 delta 法 则 


尽管 当 训 练 样 例 线 性 可 分 时 ,感知 器 法 则 可 以 成 功 地 找到 一 个 权 向 量 , 但 如 果 样 例 椒 是 继 
性 可 分 时 它 将 不 能 收敛 。 因 此 ,人 们 设计 了 另 一 个 训练 法 则 来 克服 这 个 不 足 , 称 为 delta 法 则 
(delta rule)。 如 果 训 练 样本 不 是 线性 可 分 的 ,那么 delta 法 则 会 收 人 第 到 目标 概念 的 最 佳 近似 。 

delta 法 则 的 关键 思想 是 使 用 梯度 下 阵 ( gradient descenl) 来 搜索 可 能 的 权 向 量 的 假设 空 
间 , 以 找到 最 竺 拟 合 训练 样 例 的 权 向 量 。 这 个 法 则 很 重要 ,因为 它 为 反 向 传播 算法 提供 了 基 
础 ,而 上 反 向 传播 算法 能 够 学 习 多 个 单元 的 互连网 络 。 这 个 法 则 重要 性 的 男 一 个 原因 是 ,对 于 包 
舍 多 种 不 同类 型 的 连续 参数 化 假设 的 假设 空间 ,梯度 下 降 是 必须 遍历 这 样 的 假设 空间 的 所 有 
学 习 算 法 的 基础 。 

最 好 把 delta 训练 法 则 理解 为 训练 一 个 无 阐 值 的 感知 器 ,也 就 是 一 个 线性 单元 (linear u- 
nit) , 它 的 输出 o 如 下 : 


= = + 
o(x}) = we x 


FTE, -MRETI M TERA E — Br, Pe BE 
Ty ESR EM Ee TE ERE R OR) A Fl 


(4.1) 
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练 样 例 的 训练 误差 {training error) 。 尽 管 有 很 多 方法 定义 这 个 误差 ,一 个 常用 的 特别 方便 的 度 
BIER: 
E(w) = Dy (te - 04) (4.2) 


其 中 ,D 是 训练 样 例 集合 , i, 是 训练 样 例 d 的 目标 输出 og 是 线性 单元 对 训练 样 例 a 的 输 
出 。 在 这 个 定义 中 ,上 (ww) 是 自 标 输 出 ss 和 线性 单元 输出 os 的 差异 的 平方 在 所 有 的 训练 样 例 
上 求 和 后 的 一 半 。 这 里 我 们 把 E 定 为 w 的 函数 ,是 因为 线性 单元 的 输出 o 依赖 于 这 个 权 向 
i. “OR E 也 依赖 于 特定 的 训练 样 例 集合 ,但 我 们 认为 它们 在 训练 期 间 是 固定 的 ,所 以 不 必 
麻烦 地 把 E 写 为 训练 样 例 的 函数 。 第 6 章 给 出 了 选择 这 种 E 定义 的 一 种 贝 叶 斯 论证 。 确 切 
地 讲 ,在 那里 我 们 指出 了 在 一 定 条 件 下 ,对 于 给 定 的 训练 数据 使 E 最 小 化 的 假设 也 就 是 中 
最 可 能 的 假设 。 

1 .可 视 化 假设 空间 

为 了 理解 梯度 下 降 算 法 ,可 视 化 地 表示 包含 所 有 可 能 的 权 向 量 和 相关 联 的 E 值 的 整个 假 
设 空间 是 有 帮助 的 ,如 图 4-4 所 未。 这 里 ,坐标 轴 wowi 表示 一 个 简单 的 线性 单元 中 两 个 权 
可 能 的 取 值 。 纵 轴 指 出 相对 于 某 固定 的 训练 样 例 的 误差 E. A PORE RET E 
设 空间 中 每 一 个 权 向 量 的 期 望 度 (desirability)( 我 们 期 望 得 到 一 个 具有 最 小 误差 的 假设 )。 如 
果 用 来 定义 E 的 方法 已 知 ,那么 对 于 线性 单元 ,这 个 误差 曲面 必然 是 具有 单一 全 局 最 小 值 的 
抛物 面 。 当 然 ,具体 的 抛物 面 形状 依赖 于 具体 的 训练 样 例 集合 。 


Why SO 
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对 于 有 两 个 权 值 的 绳 性 单元 , 候 设 空间 ARB we .tw 平面 。 纵 轴 表 示 与 乔 定 的 训练 样 例 集 合 相 对 应 的 权 癌 量 
假设 的 误差 。 稍 头 显 示 了 该 点 梯度 的 相反 方向 ,指出 子 在 wo、 wi 平面 中 沿 误 差 曲 面 最 陡峭 下 踊 的 方 同 


图 4-4 不 同 假 设 的 误差 
梯度 下 降 搜 索 确 定 一 个 使 E 最 小 化 的 权 向 量 是 从 一 个 任意 的 初始 权 向 量 开始 ,然后 以 很 
小 的 步伐 反复 修改 这 个 问 量 。 每 一 步 都 沿 误差 曲面 产生 最 陡峭 下 降 的 方向 修改 权 问 量 ( 参 见 
图 4-4) ,继续 这 个 过 程 直 到 得 到 全 局 的 最 小 误差 感 。 
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2. 梯度 下 降 法 则 的 推导 

我 们 怎样 才能 计算 出 沿 误差 曲面 最 陡峭 下 降 的 方向 昵 ? 可 以 通过 计算 E 相对 向 量 x 的 
每 个 分 量 的 导数 来 得 到 这 个 方向 。 这 个 向 量 导数 被 称 为 E 对 于 w 的 梯度 (gradient), 记 和 作 
Vv E(w:), 


> a 可 a 
VE(w) [2 ,=*,..., 24 


dwo I wy’ Iw, 


注意 ,VE(a ) 本 身 是 ~ 个 向 量 , 它 的 成 员 是 五 对 每 个 w, 的 偏 导数 。 当 梯度 被 解释 为 权 
空间 的 一 个 向 量 时 , 它 确定 了 使 五 最 陡峭 上 升 的 方 商 。 所 以 这 个 向 量 的 反方 向 给 出 了 最 陡峭 
下 降 的 方向 。 例 如 ,图 4-4 中 的 箭头 显示 了 wow, 平面 的 一 个 特定 点 的 贷 梯度 - VEC) 

既然 镜 度 确定 了 瑟 最 陡峭 上 升 的 方向 ,那么 梯度 下 降 的 训练 法 则 是 : 


w—w + Ate 


(4.3) 


Hip, 
Aw = -y VE(w) (4.4) 
这 里 是 一 个 正 的 常数 叫做 学 习 速 率 , 它 决 定 梯度 下 降 搜 索 中 的 步 长 。 公 式 中 的 负 号 号 
AAR LER E 下 降 的 方向 移动 。 这 个 训练 法 则 也 可 以 写成 它 的 分 量 形式 : 


w,* Ww; + Aw. 


其 中 : 


aE 
(一 了 





Aw (4.5) 





这 样 很 清楚 ,最 耳 峭 的 下 降 可 以 按照 比例 2 ea oA — HEE w, 来 实现 。 


要 形成 一 个 根据 公式 (4.5) 适 代 更 新 权 的 实用 算法 ,我 们 需要 一 个 高 效 的 方法 在 每 一 步 都 
计算 这 个 梯度 。 幸 运 的 是 计算 过 程 并 不 图 难 。 我 们 可 以 从 公式 (4.2) 中 计算 的 微分 ,从 府 


得 到 组 成 这 个 梯度 向 量 的 分 量子 。 过 程 如 下 








aE 3 i2 ; 
aa Oa 2 2 Foi- oa) 


i 3 
= 2a 2l te — 04) Jw,‘ 一 oq) 


x 可 ee ee 
1 ta = 04) Fay te -Ww xd) 


(tg — of xig) (4.6) 


i 4&5 

其 中 , xi 表示 训练 样 例 d 的 一 个 输入 分 量 x,。 现在 我 们 有 了 一 个 公式 ,能 够 用 线性 单元 
的 输入 xi ,输出 og 以 及 训练 样 例 的 目标 值 te 表示 了-。 把 公式 (4.6) 代 入 公式 (4.5) 便 得 到 
了 梯度 下 降 权 值 更 新 法 则 。 
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Aw; = no, (te "= Og) Xud (4.7) 
fe N 


E 
总 而 言 之 ,训练 线性 单元 的 梯度 下 降 算 法 如 下 : 选取 一 个 初始 的 随机 权 向 量 ; 应 用 线性 单 
元 到 所 有 的 训练 样 例 ,然后 根据 公式 (4.7) 计 算 每 个 权 值 的 Aw;; 通 过 加 上 Aw, 来 更 新 每 个 权 
值 ,然后 重复 这 个 过 程 。 这 个 算法 被 归纳 在 表 4-1 中 。 央 为 误差 曲面 仅 包 含 一 个 全 局 的 最 小 
值 , 所 以 无 论 训练 翌 俩 是 否 线性 可 分 ,这 个 算法 会 收 俩 到 具有 最 小 误差 的 权 向 量 ,和 菜 件 是 必须 
使 用 一 个 足够 小 的 学 习 速 率 p WR 5 太太 , 姓 度 下 降 搜 索 就 有 越过 误差 曲面 最 小 仁 而 沾 是 
停留 在 那 一 点 的 危险 。 因 此 ,对 此 算法 的 一 种 痕 用 的 改进 方法 古 随 着 梯度 下 降 步 数 的 增加 逐 
Brie) 了 的 值 。 
甫 41 WARES THRE FRB 
GHADIENT-DESCENT{ training | examples, 7) 
training _examples 中 乌 -TUIMA AIBA AG. +) ,其 中 x BAR EA RA. g BES 
HE AA 0.05) 
OPRILET w, 为 某 个 小 的 随机 值 
@ RDP aS A RE 
@MMLET Aw, AO 
OTA training examples 中 的 每 个 {x 0) AE: 
全 把 实例 x 输入 到 此 单元 ,计算 输出 o 
ON THERM ETE w, W 
Aw + Aw; + gli- ax, (4.8) 
部 对 于 线性 单元 的 每 个 权 w. i 
wow, + Aw; (4.9} 


注 ; SK RAT MM BRER.) HEAR (BRA ww, + plt- a) x. 
3. 梯 度 下 降 的 随机 近似 
梯度 下 降 是 一 种 重要 的 通用 学 习 范 型 。 它 是 搜索 庞大 假设 空间 或 无 限 假 设 空间 的 : -种 策 
略 , 它 可 应 用 于 满 旦 以 下 条 件 的 任何 傅 况 :1 假设 空间 包含 连续 参数 化 的 假设 (例如 ,一 -个 线 
性 单元 的 权 值 );(2) 误 差 对 于 这 些 假 设 参 数 可 微 。 应 用 梯度 下 降 的 主要 实 成 问题 是 ，(1) 有 时 
收敛 过 程 可 能 非常 惕 { 它 可 能 需要 数 干 步 的 梯度 下 降 );(2) 如 果 在 误差 曲面 上 有 多 个 局 部 极 小 
值 ,那么 不 能 保证 这 个 过 程 会 找到 全 局 最 小 值 。 
缓解 这 些 困 难 的 一 个 常见 的 梯度 下 降 变 体 被 称 为 增 量 梯度 下 降 (incremental gradient de- 
scent) 或 随机 梯度 下 降 {stochastic gradient descent)。 鉴 于 公式 (4.7) 给 出 的 梯度 下 降 训 练 法 到 
在 对 D 中 的 所 有 训练 样 例 求 和 后 计算 权 值 更 新 ,随机 梯度 下 降 的 思想 是 根据 每 个 单独 样 例 的 
误差 增 量 计算 权 值 更 新 ,得 到 近似 的 梯 凑 下 降 搜索 。 修 改 后 的 训练 法 则 与 公式 (4.7 相似 ,只 
是 在 迭代 计算 每 个 训练 样 例 时 根据 下 面 的 公式 来 更 新 权 值 : 
Aw, 一 y(t -o) x; (4,10) 
其 中 ,1、o、 和 x; 分 别 是 目标 值 .单元 输出 和 第 i 个 训练 样 例 的 输入 。 要 修改 表 4-1 的 本 
度 下降 算 法 ,只 要 简 单 地 删除 式 (4.9) 并 把 式 (4.8) 替 换 为 wi 一 w+ glt- o) a; MAS. 
随机 梯度 下 降 可 被 看 作为 每 个 单独 的 训练 样 例 4 定义 不 同 的 误差 函数 E(w ): 


ww ai bbt.com PO0O0O0D0D0OO0O 





BAe A Lat Ff 8S 69 


Elw) = x (ta = 04)? (4.11) 


FH, ta Mos 是 训练 样 例 4 的 旧 标 输出 值 和 单元 输出 值 。 随 机 梯度 下 降 迭 代 计 算 训练 样 
例 集 D 的 每 个 样 例 4, 在 每 次 迷 代 过 程 中 按照 关于 Eal w ) 的 梯度 来 改变 权 值 。 o 
练 样 例 时 ,这些 权 值 更 新 的 序列 给 出 了 对 于 原来 的 误差 函数 Et w ) 的 梯度 下 降 的 一 个 合理 近 
似 。 通 过 使 ?梯度 下 降 的 步 长 的 值 足够 小 ， Stet aie se nee MEE 
度 下降。 标准 的 梯度 下 隆 和 随机 的 梯度 下 降 之 间 的 关键 区 别 是 : 

© 标准 的 梯度 下 降 是 在 权 值 更 新 前 对 所 有 样 例 汇总 误差 ,而 随机 梯度 下 降 的 权 值 是 通过 

考查 每 个 训练 实例 来 更 新 的 。 

© 在 标准 的 梯度 下 降 中 , 权 值 更 新 的 每 --- 步 对 多 个 样 例 求 和 ,这 需要 更 多 的 计算 。 另 -一 方 

面 ,因为 使 用 真正 的 梯度 ,标准 的 梯度 下 降 对 于 每 一 次 权 值 更 新 经 常 使 用 比 随机 梯度 下 
降 大 的 步 长 。 

© 如 果 E(w) 有 多 个 局 部 极 小 值 ,随机 的 梯度 下 隆 有 时 可 能 避免 陷 人 这 些 局 部 极 小 值 中 ， 

因为 它 使 用 不 同 的 YEs(w ) 而 不 是 YE(w ) 来 引导 搜索 。 

在 实践 中 ,无 论 是 随机 的 还 是 标准 的 梯度 下 降 方法 都 被 广泛 应 用 

公式 {4.10}) 中 的 训练 法 则 被 称 涯 增 量 法 则 {delta rule), RAY LMS 法 则 {least-mean -square 
最 小 均 方 ) ,Adaline 法 则 或 Windrow-Hoff FW UEHRAS He). ESL 章 中 描述 了 它 在 
学 习 博 塞 问题 的 评估 函数 中 的 应 用 ,当时 我 们 称 它 为 LMS 权 值 更 新 法 则 。 注 意 ,公式 (4.10) 
的 增 量 法 则 与 第 4.4.2 节 的 感知 器 训练 法 则 相似 。 丙 个 看 起 来 完全 一 致 的 表达 式 事实 上 是 不 
同 的 ,因为 在 增 量 法 则 中 o 是 指 线性 单元 的 输出 o( +) = w'y ,而 对 于 感知 器 法 则 ,o AIS BA 
Wih olz) = sgn w'a) 

FS AE RA TAA H AO EEA U PT A I LH IGRI AR, (E E E TT DR A 
HRRAREAJL. BE o = we x E ERRIERTA CA E, H oo’ = sgn ( 3 +) a 
BALERS ERE PE, PERERA FEY "训练 -… 个 感知 器 使 其 拟 合 目标 
值 为 + 1 的 训练 样 例 ,可 以 使 用 与 训练 。-- 样 的 目标 值 和 训练 样 例 ,不 要 使 用 增 基 法 则 。 很 明 
显 , 如 果 非 阔 值 输出 。 能 够 被 训练 到 完美 拟 合 这 些 值 ,那么 阅 值 输出 o' 也 会 拟 合 它们 (因为 
sgn(1) = 1,sgn( ~1)= ~1)。 即 使 不 能 完美 地 拟 合 目 标 值 ,只 刻 线 性 单元 的 输出 具有 正确 的 
FH AREN o' 值 就 会 正确 地 拟 合 目标 值 + 1。 注 意 ,由 于 这 个 过 程 会 得 到 使 线性 单元 输出 
的 误差 最 小 化 的 权 值 ,这 些 权 值 不 能 保证 也 使 有 阅 值 输出 o' 的 误 分 类 样 例 数 最 小 化 、 


4.4.4 小 结 


我 们 已 经 研究 了 近代 学 习 感 知 髓 权 值 的 两 个 相似 的 算法 。 这 两 个 算法 间 的 关键 差异 是 感 
知 器 训练 法 则 根据 阅 值 化 (thresholded) 的 感知 器 输出 的 误差 更 新 权 值 ,然而 增 量 法 则 根据 输 
人 的 非 阐 值 化 (unthresholded) 线 性 组 合 的 误差 来 更 新 权 。 

这 两 个 训练 法 则 间 的 差异 反映 在 不 同 的 收 伍 特 性 上 。 感 知 回 训练 法 则 经 过 有 限 次 的 迁 代 
收 敏 到 一 个 能 理想 分 类 训练 数据 的 假设 ,但 条 件 是 训练 样 例 线性 可 分 。 增 量 法 则 内 近 收敛 到 
最 小 误差 假设 ,可 能 需 槛 极 长 的 时 间 , 但 无 论 训练 样 鲍 是 否 线性 可 分 都 会 收 伍 。 关 于 以 上 收 令 
手 的 详细 证 明 可 以 参考 Hertz et al. (1991). 
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学 习 权 向 量 的 第 三 种 方法 是 线性 规划 {jinear programming)。 线 性 规划 是 解 线性 不 等 式 方 
程 组 的 一 种 通用 的 有 效 方法 。 注 意 每 个 训练 样 例 对 应 一 个 形式 为 和 :zx OR w'r OKA 
等 式 , 并 有 旦 它们 的 解 就 是 我 们 期 望 的 权 向 量 。 遗 憾 的 是 ,这 种 方法 仅 当 训练 样 例 线性 可 分 时 有 
解 。Duda & Hart (1973,p.168) 推 荐 了 一 种 蝎 配 妙 的 适合 非 线性 可 分 的 情况 的 方法 。 无 论 如 
何 , 这 种 线性 规划 的 方法 不 能 扩展 到 训练 多 层 网 络 , 这 是 我 们 最 关心 的 。 和 相反 ,正如 下 - . 节 所 
讨论 的 ,基于 增 量 法 则 的 梯度 下 降 方 法 可 以 被 简单 地 扩展 到 多 层 网 络 。 


4.5 SERNAME ETERA 


EASE 4.4.1 WATTS, PAARA A ERRATEA R M. FAR a ERA E-A 
的 多 层 网 络 能 够 表示 种 类 繁多 的 非 线 性 曲面 。 例 如 ,图 4-5 HE T AeA Be AS 
的 决策 曲面 。 这 个 语音 识别 任务 机 区 分 出 现在 "hh d” 上 下 文中 的 10 种 元 音 ( 例 如 , “hid”, 
“had” “head” “hood "等 )。 输 入 的 语音 信号 用 两 个 参数 表示 ,它们 是 通过 对 声音 的 频 赠 分 配 
得 到 的 ,这 样 我 们 可 以 方便 地 在 二 维 实例 空间 中 显示 出 雇 沫 面 。 如 图 可 见 , 多 层 网 络 能 够 表 朱 
总 度 非 线性 的 决策 面 , 它 比 前 看 图 4-3 中 画 出 的 单个 单元 的 线性 决策 面 表 征 能 力 更 强 . 





这 里 显示 的 网 络 基 用 来 训练 识别 10 种 出 现在 “hd (例如 ”had “hid” BSTC. AP PS A H A TE 
数 Fl 和 了 本 组 成 ,它们 是 通过 对 声音 的 频谱 进行 分 析 得 到 的 。 网 络 的 10 个 输出 对 应 于 10 个 可 能 的 元 音 。 这 个 
网 络 的 着 测 是 其 中 有 最 大 值 的 输出 。 右 图 两 出 了 学 到 的 网 络 捕 代表 的 高 度 非 线性 央 荣 面 。 图 中 的 点 表 沙 测 这 
样 例 ,它们 与 用 来 训练 这 个 网 络 的 样 例 是 完全 不 则 的 (经 许可 摘自 Haung & Lippmannt1988)}。 


图 45 多 层 前 馈 网 络 的 决策 区 域 
本 节 讨 论 如 何 学 习 这 样 的 多 层 网 络 , 使 用 的 算法 和 前 面 讨论 的 梯度 下 降 方 法 相似 . 
4.5.1 可 被 阅 值 单元 


应 该 使 用 什么 类 型 的 单元 来 作为 构建 多 层 网 络 的 基础 呢 ? 起 初 我 们 可 以 妾 试 选择 前面 讨 
论 的 线性 单元 ,因为 我 们 已 经 为 这 种 单元 推导 出 了 一 个 樟 度 下 降 学 习 法 则 。 然 而 ,多 个 线性 单 
元 的 连接 仍 产 生 线 性 函数 , 面 我 们 更 希望 选择 能 够 表征 非 线性 函数 的 网 络 。 感 知 妖 单元 是 男 
一 种 选择 ,但 它 的 不 连续 阅 值 使 它 不 可 微 , 所 以 不 适合 梯度 下 降 算法 。 我 们 所 需要 的 是 这 样 的 
单元 , 它 的 输出 是 输 人 的 非 线 性 函数 ,并 且 输 出 是 输 人 的 可 微 函 教 。 一 种 答案 是 sigmoid 单元 
(unit) ,这 是 一 种 非常 类 似 于 感知 器 的 单元 ,但 它 基于 一 个 平滑 的 可 微 阐 值 函 数 。 
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图 4-6 画 出 了 sigmoid 单元 。 与 感知 器 相似 ,sigmoid 单元 先 计 算 它 的 输入 的 线性 组 人 台 . 然 
后 应 用 一 个 阅 值 到 此 结果 。 然 而 ,对 于 sigmoid 单 无 , 国 值 输出 是 输 人 的 连续 图 煞 ， 昌 精 确 地 
HE. sigmoid 单元 这 样 计算 它 的 输出 : 


其 中 : 
(4.12) 


5 经 常 被 称 为 sigmoid 函数 或 者 也 可 以 称 为 logistic PARK (logistic function)。 注 意 , 它 的 输 
出 范围 为 0 到 1, 随 输入 单调 递增 (参见 图 4-6 中 的 国 值 枉 数 曲 线 )。 因 为 这 个 国 数 把 非常 大 的 
输入 值 域 映射 到 一 个 小 范围 的 输出 , 它 经 常 被 称 为 sigmoid 单元 的 挤 压 函数 { squashing func- 
tion}. sigmoid AAA —T Aa HRE, BEE EAD Se ROE a AE BY a EA [确切 地 讲 ， 
= s(y):(1- oly)]。 我 们 将 看 到 ,后 面 的 梯度 下 降 学 习 法 则 使 用 了 这 个 导数 。 有 时 也 
可 以 使 用 其 他 易 计 算 导 数 的 可 微 函 数 代 震 s。 例 如 ,sigmoid 图 数 定义 的 e MARR A 
e- #7, 其 中 让 为 某 个 正 的 常数 ,用 来 决定 这 个 圈 值 肾 数 的 陡峭 性 。 双 曲 正 切 归 数 tanh 有 时 也 
用 来 代替 sigmoid 了 捕 数 (参见 习题 4.8)。 










A 
met 二 È W: x: 
"= Aa 


图 4-6 sigmoid WART 
4.5.2 反 向 传播 算法 


对 于 由 一 系列 确定 的 单元 互 连 形成 的 多 层 网 络 , 反 向 传播 算法 可 用 来 学 习 这 个 网 络 的 羽 
值 。 它 采用 梯 麻 下 降 方法 试图 最 小 化 网 络 输出 值 和 目标 值 之 间 的 误差 于 方 。 这 一 区 给 出 区 问 
传播 算法 ,下 一 节 推 导出 反 向 传播 算法 使 用 的 梯度 下 降 权 值 更 新 法 则 。 

因为 我 们 要 考虑 多 个 输出 单元 的 网 络 ,而 不 是 像 以 前 只 考虑 单个 单元 ,所 以 我 们 先 重 新 定 
义 误差 ,以 便 对 所 有 网 络 输出 的 误差 求 和 . 


E(w) => > (tig — Ong)? (4.13) 
dé iE outpub 

TEP outputs 是 网 络 输出 单元 的 集合 ,如 和 os 是 与 训练 样 例 d 和 第 让 个 输出 单元 相关 的 输出 值 ， 
反 向 传播 算法 而 临 的 学 习 问 题 是 搜索 一 个 巨大 的 假设 空间 ,这 个 空间 由 网 络 中 所 有 单 雹 
的 所 有 可 能 的 权 值 定义 。 这 种 情况 可 以 用 一 个 误差 曲 而 来 可 视 化 表示 ,与 图 4-4 表示 的 线性 
单元 的 误差 曲 而 相似 。 那 幅 图 中 的 误差 被 我 们 的 新 的 误差 定义 E 所 兰 代 ,并 且 其 他 的 空间 的 
维 现在 对 应 网 络 中 与 所 有 单元 相关 的 所 有 权 值 。 和 训练 单个 单元 的 情况 一 样 , 档 度 下 降 吕 被 

用 来 尝试 寻找 一 个 假设 使 五 最 小 化 。 
在 多 层 网 络 中 ,误差 曲面 可 能 有 多 个 局 部 极 小 值 ,而 图 4-4 表示 的 抛物 曲面 仅 有 一 个 最 小 
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值 。 遗 憾 的 是 ,这 意味 着 梯度 下 降 仪 能 保证 收敛 到 局 部 极 小 值 ,而 未 必得 到 全 局 最 小 的 误差 。 
尽管 有 这 个 障 得 ,已 经 发 现 对 于 实践 中 很 多 应 用 上 反 向 传播 算法 都 产生 了 出 色 的 结果 。 
表 4-2 给 出 取向 传播 算法 。 这 里 描述 的 算法 适用 于 包含 两 层 sigmoid 单元 的 分 层 前 馈 
网 络 ,并 且 知 -- 层 的 单元 与 前 一 房 的 所 有 单元 相连 。 这 是 反 向 传播 算法 的 增 二 梯度 下 降 ( 或 随 
机 梯度 下 降 ) 版 本 。 这 里 使 用 的 符号 与 前 一 节 使 用 的 --- 样 ,并 进行 了 如 下 的 扩展 : 
e 网 络 中 得 个 结 点 被 赋予 一 个 序 导 {例如 -- 个 整数 ), 这 里 的 “ 结 点 要么 是 网 络 的 输入, 竖 
么 是 网 络 中 某 个 单元 的 输出 。 
K; BEAN LA I 到 单元 7 HIRA, zx 表示 对 应 的 权 值 。 
@ $, 表示 与 单元 n 相关 联 的 误差 项 、 它 的 角色 与 前 面 讨论 的 delta 训练 法 则 中 的 (1 -0。) 
相似 。 后 面 我 们 可 以 看 到 6, = -E 


ret, 
# 4-2 的 算法 ,从 建立 -个 具有 期 望 数 量 的 隐 巷 单元 和 输出 单 苑 的 网 络 并 初始 化 所 有 网 
络 的 权 值 为 小 的 随机 数 开 始 。 给 定 了 这 个 钻 定 的 网 络 结构 ,算法 的 主 循环 就 对 训练 样 例 进行 
反复 的 选 代 。 对 于 每 一 个 训练 样 例 , 它 应 用 目前 的 网 络 到 这 个 样 例 , 计 算出 对 于 这 个 样 例 网 络 
输出 的 误差 ,然后 更 新 网 络 中 所 有 的 权 值 。 对 这 样 的 宰 度 下降 步骤 进行 夫 代 ,直到 网 络 的 性 能 
达到 可 接受 的 精度 为 止 (经 常 需要 上 干 次 ,多 次 使 用 局 样 的 训练 笠 例 )- 


表 4-2 包含 两 层 sigmoid 单元 的 前 饥 网 络 的 反 向 传播 算法 [随机 梯度 下 降 版 本 } 


BACKPROPAGATION( training. examples, a Fins Mouse Didden) 
trainning _ exaptes pA PRE AEA 2 7 上 的 序 偶 ,其 中 x 是 网 络 输入 值 问 量 ,: EE bee i. 
? ERIRE AA 0.05), nd PS AR, ra RR OR, ny A ORK 
从 单元 i RET MARA x AT i 到 单元 / IRA wp 
@ 创建 具有 nn 个 输入, nian 个 隐藏 单元 ,nu 个 输出 单元 的 网 络 
鲁 初 始 化 所 有 的 网 络 权 值 为 小 的 随机 值 ! 例 如 -0.05 和 0.05 ZR) 
© 在 通 到 终止 条 件 前 ; 
@ 对 于 训练 样 例 training _ examples 中 的 得 个 kx， tis 
sete A HY ST La 
1. 把 实例 x 输入 网 络 , 并 计算 网 络 中 每 个 单元 u 的 输出 o, 
使 误差 沿 网 络 反 向 传播 
2. 对 于 网 络 的 每 个 输出 单元 让 .计算 它 的 庶 考 项 加 
all- a, Ce, g) {4.14} 
3. 对 于 网 络 的 每 个 隐藏 单元 TREN RE ôy 
TEEN (4.15) 


4.2 RTA w 


ee ee at -一 一- 一 一 一 -- 一 -~ - 一 一 - 


时 一 r 1 
ww AW 


其 中 
Aw, = x (4.16) 





这 里 的 梯度 下 降 权 更 新 法 则 { 表 4-2 中 的 公式 (4.16)) 与 delta 训练 法 则 (公式 (4.10)) 相 
似 。 就 像 delta 法 则 , 它 恢 照 以 下 三 者 来 更 新 每 一 个 权 : 学 习 速 率 ?该 权 值 卡 及 的 输入 侦 xj 
和 这 个 单元 输出 的 误差 。 惟 一 的 不 同 是 delta 法 则 中 的 误差 项 (: - o) 被 圭 换 成 一 个 更 复杂 的 
误差 项 ô o FER 4.5.3 节 的 对 权 更 新 法 则 的 推导 之 后 ,我们 将 给 出 5 ERER. A r HAR 
地 理解 它 , 先 考 虚 网 络 的 每 一 个 输出 单元 上 的 高 (在 算法 的 公式 (4.14) 中 外) 是 怎样 计算 的 。 
很 简单 ,5, 与 delta HMPA ( t-0,) 48 BRET sigmoid HRB FR o4(1 ~ oz) 每 个 
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隐藏 单元 的 5, 的 值 具 有 相似 的 形式 (算法 的 公式 (4.15))。 然 而 ,因为 训练 桩 鲍 仅 对 网 络 的 
输出 提供 了 目标 值 岂 ,所 以 缺少 直接 的 目标 值 来 计算 隐藏 单元 的 误差 值 。 因 此 采取 以 下 则 楼 
办 法 计算 隐藏 单元 的 误差 项 : 对 受 隐 藏 单元 h 影响 的 每 一 个 单元 的 误差 进行 加 权 求 和 ,每 
个 误差 8, BS wa, wm 就 是 从 隐藏 单元 到 输出 单元 的 权 值 。 这 个 权 值 刻 画 了 隐藏 单元 
h 对 于 输出 单元 上 的 误差 应 "负责 ”的 程度 ， 

K 4-2 中 的 算法 随 着 每 个 训练 样 例 的 出 现 而 递增 地 更 新 权 。 这 一 点 与 梯度 下 降 的 随机 近似 算 
法 一 致 。 要 取得 误差 5 的 真实 梯度 ,需要 在 修改 权 值 之 前 对 所 有 训练 样 例 的 5x; 值 求 和 ，、 

在 典型 的 应 用 中 , 反 向 传播 算法 的 权 值 更 新 送 代 会 被 重复 上 干 次 。 有 很 多 终止 条 件 可 以 
用 来 停止 这 个 过 程 。 一 种 方法 是 在 迭代 的 次 数 到 了 一 个 固定 值 时 停止 :或 当 在 训练 样 例 上 的 
误差 降 到 茜 个 阐 值 以 下 时 ;或 在 分 离 的 验证 样 例 集合 上 的 误差 符合 某 个 标准 时 。 终 止 判 据 的 
选 拌 是 很 重要 的 ,因为 太 少 的 迭代 可 能 无 法 有 效 地 降低 误差 ,而 太 多 的 迭代 会 导致 对 训练 数据 
的 过 度 拟 合 。 在 第 4.6.5 节 中 我 们 会 更 详 细 地 讨论 这 个 问题 。 

i ,增加 冲 癌 项 

因为 反 向 传播 算法 的 应 用 如 此 广泛 ,所 以 已 经 开发 出 了 很 多 反 向 传播 算法 的 变 体 。 其 中 
最 常见 的 是 峰 改 算法 中 公式 (4.16) 的 权 值 更 新 法 则 ,使 第 ”次 迭代 时 的 权 值 的 更 新 部 分 地 优 
TREES nn -1 次 逻 代 时 的 更 新 , 即 把 公式 (4.16) 换 为 如 下 的 形式 ，: 

Aw,;(n) = Px; + adw (a - 1) (4.17) 

这 里 Awi(n) 是 算法 主 循环 中 的 第 n KERATAN. H Oca <1 是 一 个 称 为 
冲 量 {momentum) 的 常数 。 注 意 ,这 个 公式 右 侧 的 第 一 项 就 是 反 向 传播 算法 的 公式 (4.16) 中 
的 权 值 更 新 法 则 。 右 边 的 第 二 项 是 新 的 ,被 称 为 冲 量 项 。 为 了 理解 这 个 冲 量 项 的 作用 ,设想 恒 
度 下 降 的 搜索 轨迹 就 好 像 一 个 (无 冲 量 的 ) 球 洛 误差 曲面 滚 下 。r 的 作用 是 增加 冲 量 ,使 这 个 
球 从 一 次 送 代 到 下 一 次 迁 代 时 以 同样 的 方向 滚动 。 冲 量 有 时 会 使 这 个 球 滚 过 误差 曲 而 的 局 部 
极 小 值 或 使 其 滚 过 误差 曲 而 上 的 平坦 区 域 。 如 果 没 有 冲 量 .这 个 球 有 可 能 在 这 个 区 城 停 止 。 
它 也 具有 在 梯度 不 变 的 区 域 逐 渐 增 大 搜索 步 长 的 效果 ,从 而 可 以 加 快 收 化 。 

2. 学 习 任 意 的 无 环 网 络 

表 4-2 给 出 的 反 向 传播 算法 的 定义 仅 适 用 于 两 雇 的 网 络 。 然 而 那里 给 出 的 算法 可 以 简单 
地 推广 到 任意 深度 的 前 由 网 络 。 公 式 (4.16) 的 权 值 更 新 法 则 保持 不 变 , 惟 一 的 变化 是 计算 6 
值 的 过 程 。 概 括 地 说 ,第 m 层 的 单元 r HS, 值 是 由 更 深 的 m+ 1 层 的 8 值 根据 下 式 计算 的 : 

6, = ol = o) 之 w 2, (4,18) 

注意 ,这 个 公式 与 表 4-2 算法 的 第 3 步 相同 ， 这 旦 要 说 明 的 是 对 于 网 络 中 的 任意 数量 的 隐 
着 单 元 ,该 步骤 要 被 重复 很 多 遍 。 

将 这 个 算法 推广 到 任何 有 向 无 环 结构 也 同样 简单 ,而 不 论 网 络 中 的 单元 是 否 像 我 们 目前 
假定 的 那样 被 排列 在 统一 的 层 上 。 对 于 网 络 单元 没有 按 此 排列 的 情况 ,计算 任意 内 部 单元 (也 
就 是 所 有 非 输出 单元 ) 的 人 的 法 则 是 : 

人 _ wed (4.19) 


wnair enmt 


其 中 , Downstream ( rÆ PEJ r 的 直接 的 下 游 Cimmediately d downstream ) 单 元 的 
集合 ,或 者 说 输入 中 包括 7 的 输出 的 所 有 单元 。 第 4.5. 3 节 我 们 要 推导 的 就 是 这 种 祝 值 更 新 


法 则 的 一 般 形 式 。 
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4.5.3 反 向 传播 法 则 的 推导 


这 一季 给 出 反 疝 传播 算法 的 权 值 调整 法 则 的 推导 ,如 果 旦 第 一 过 阅读 可 以 跳 过 这 一 节 . 而 
ARER, 

这 里 我 们 要 解决 的 问题 是 推导 出 表 4-2 算法 使 用 的 随机 梯度 下 隆 法 则 .， 回忆 会 
式 (4.110) ,随机 的 梯度 于 降 算 法 选 代 处 理 训练 样 例 ,每 次 处 理 一 个 。 对 于 每 个 训练 样 例 d, A 
用 关于 这 个 样 例 的 误差 Ea 的 梯度 修改 权 值 。 换 句 话 说 ,对 于 每 一 个 训练 样 例 dd ,每 个 权 w, 
被 增加 Atty: 

ak 
Aw, =- 7 l 
EP, Ea 是 训练 样 例 d ee A 


E,(w) = ae (t, - 0,)° 


Le ts 


这 里 outputs 是 网 络 中 输出 单元 的 集合 ,总 EEI PURE d AI HERTE, o 是 给 
证 训练 样 例 d 时 单元 天 的 输出 值 。 

随机 梯度 下 降 法 则 的 推导 在 概念 上 是 易 慌 的 ,但 需要 留意 很 多 下 标 和 变量 。 我 们 将 遵循 
图 4-6 中 所 画 出 的 符号 ,增加 一 个 下 标 } 用 来 表示 网 络 中 的 第 j 个 单元 ,具体 如 下 : 

' = 单元 | 的 第 i 个 输入 

= 与 单元 j 的 第 i 个 输入 相关 联 的 权 值 

@ net; = = ow Xi EJ i RARE) 

e 0 = 单元 了 计算 出 的 输出 

。 4 = 单元 | 的 目标 输出 

® o = sigmoid 函数 

9 outputs = 网 络 最 后 一 层 的 单元 的 集合 

® Downstream ( an = 单元 的 直接 输入 (immediate inputs) 中 包含 单元 j 的 输出 的 单元 的 集合 


现在 我 们 导出 5 < 的 一 个 表达 式 , 以 便 实现 公式 (4.20) 中 所 讲 的 随机 梯度 下 降 法 则 . 


先 , 注 意 权 值 w , 仅 能 是 过 net, 影响 网 络 的 其 他 部 分 。 所 以 ,我 们 可 以 使 用 链 式 规则 (ehain 
rule) 得 到 ; 





(4.20) 


Jw, net, dw, 





PEs (4.21) 


= Bnet; * 
已 知 等 式 (4.21) ,我 们 剩 下 的 任务 就 是 为 了 4 导出 一 个 方便 的 表达 式 。 我 们 依次 考虑 两 


种 情况 ， 一 种 情况 是 单元 j 是 网 络 的 一 个 输出 单元 , 另 一 种 情况 是 j 是 一 个 内 部 单元 。 
情况 1 ， 输 出 单元 的 权 值 训练 法 则 ”就 像 w; 仅 能 通过 net; 影响 网 络 -- 样 , net) 仅 能 通过 
。 影响 网 络 。 所 以 我 们 可 以 再 次 使 用 链 式 规 则 得 出 : 


rod 
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首先 , 仅 考 虚 公 式 {44.22) 的 第 一 项 : 





dF 3 | ` 
a ay, 2 ea 
J Mat pE 


BRI k= j 时 ,所 有 输出 单元 的 导数 二 ti 一 06) 为 0。 所 以 我 们 不 必 对 多 个 输出 单 
JRK H, 只 需 设 k = jo 





= -{i,-9,) (4.23) 


接 下 来 考虑 公式 (4.22) 中 的 第 二 项 。 既 然 0, = a net,), 导数 二 各 Wize sigmoid pA Bx HF 


数 , 击 我 们 已 经 播 出 sigmoid BRAIT N o Cnet, ) C1 -ol net;))< 所 以 ， 
Jo, E Jal net, ) 





d net, ~ g net, 
= Íl - on) (4.24) 
把 表达 式 (4.23) 和 (4.24) 代 人 (4.22) ,我 们 得 到 
JE 
Ia =- (t, - o,)o,(1 - o;) (4.25) 
然后 与 公式 (4.20) 和 (4.21) 合 并 ,我 们 便 推 导出 了 输出 单元 的 随机 梯度 下 降 法 则 : 
- 1546 = i nara ei: (4.26) 


注意 ,这 个 训练 法 则 恰恰 是 表 4- TE 14) 和 公式 (4.16) 的 权 值 更 新 法 则 。 
此 外 ,我 们 可 以 发 现 公式 (4.14) 中 的 6 与 - 5 二 的 值 相等 。 在 这 一 节 的 其 余部 分 我 们 将 使 





了 


用 8, 来 表示 任意 单元 ; 的 了。 

情况 2 ; 隐藏 单元 的 权 慎 训 练 法 则 ”对 于 网 络 中 的 内 部 单元 或 者 说 隐藏 单元 的 情况 , 推 
导 wi 必须 考虑 zi 间接 地 影响 网 络 输出 ,从 而 影响 上 Es。 由 于 这 个 原因 ,我 们 发 现 定义 网 络 中 
单元 ; 的 所 有 直接 下 游 (immediately downstream) 单 元 的 集合 (也 就 是 直接 输 人 中 包 售 单元 j 
的 输出 的 所 有 单元 ) 是 有 用 的 。 我 们 用 Downstream ( 门 表示 这 样 的 单元 集合 。 注 意 , net, 只 能 
通过 Downstream (站 中 的 单元 影响 网 络 输 出 { 青 影响 五 四。 所 以 可 以 得 出 如 下 推导 : 


dE Ss d Eg d net, 
d net, Inet, 





ra | 
d net; kE Onenstraam( y? 
as Del; 


a 
kE Downiream i yy d net; 








9 da. 
~~ — 
kE Downstream 六 do; d net; 
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= >, -oo(L-o) (4.27) 


AE Dowesrreageat p 


重新 组 织 各 项 并 使 用 6 表示 - 了 < RINS: 
J 


6 =0,(1-a,) by Op 


kE Dimensi p] 


All 
Aw = WX 


上 式 就 是 由 公式 (4.19) 得 到 的 一 般 法 则 ,用 来 更 新 任意 有 向 无 环 网 络 结构 内 部 单元 的 权 
值 。 注意, 表 4-2 中 的 公式 (4.15) 仅 是 这 个 法 则 当 Downstream (j) = outputs 时 的 一 个 特例 ， 


46 反问 传播 算法 的 说 明 
4.6.1 收 笋 性 和 局 部 极 小 值 


正如 前 面 所 描述 的 , 反 向 传播 算法 实现 了 一 种 对 可 能 的 网 络 权 值 空间 的 梯度 下降 搜 索 , 它 
迭代 地 减 小 训练 样 例 的 目标 值 和 网 络 输出 间 的 误差 。 因 为 对 于 多 层 网 络 ,误差 册 面 可 能 含有 
多 个 不 同 的 局 部 极 小 值 , 梯 度 下 降 可 能 陷 人 这 些 局 部 极 小 值 中 的 任何 一 个 。 因 此 ,对 于 多 层 网 
络 , 反 向 传播 算法 仅 能 保证 收 伍 到 误差 E 的 某 个 局 部 极 小 值 ,不 一 定 收 全 到 全 局 最 小 误差。 

尽管 缺乏 对 收 合 到 全 局 最 小 误差 的 保证 , 反 向 传播 算法 在 实践 中 仍 是 非常 有 效 的 湛 数 天 
近 算法 。 对 于 很 多 实际 的 应 用 ,人 们 发 现 局 部 极 小 值 的 问题 没有 想像 的 那么 严重 。 为 了 对 这 
个 问题 有 一 些 直观 的 认识 ,考虑 含有 大 量 权 值 的 网 络 , 它 对 应 着 维 数 非常 高 的 空间 中 的 误差 曲 
面 (每 个 权 值 一 维 )。 当 梯度 下 降 陷 人 相对 某 个 权 的 局 部 极 小 值 时 ,相对 其 他 的 权 , 这 里 未 必 是 
局 部 极 小 值 。 事 实 上 ,网 络 的 权 越 多 ,误差 曲面 的 维 数 越 多 ,也 就 越 可 能 为 梯度 下 降 提供 更 多 
的 “逃逸 路 线 " ,让 梯度 下 降 离开 相对 该 单个 权 值 的 局 部 极 小 值 。 

对 局 部 极 小 值 的 第 二 种 观点 是 需 考 虑 随 着 训练 中 迭代 次 数 的 增加 网 络 权 值 的 演化 方式 . 
注意 ,在 算法 中 ,如 果 把 网 络 的 权 值 初始 化 为 接近 于 0 的 值 , 那 么 在 早期 的 梯度 下 降 步骤 中 ,网 
络 将 表现 为 一 个 非常 平滑 的 函数 ,近似 为 输 人 的 线性 函数 。 这 是 因为 sigmoid 函数 本 身 在 权 
(ABR 0 时 接近 线性 ( 兄 图 4.6 中 的 sigmoid 函数 曲线 )。 仅 当权 值 已 经 增长 了 一 定时 间 之 后 ， 
它们 才 会 到 达 可 以 表示 高 度 非 线性 网 络 应 数 的 程度 。 可 以 预期 在 这 个 能 表示 更 复杂 孙 数 的 权 
窑 间 区 域 存 在 更 多 的 局 部 极 小 值 。 但 希望 当权 到 达 这 一 点 时 它们 已 经 足够 车 近 全 局 最 小 值 ， 
即便 它 是 这 个 区 域 的 局 部 极 小 值 也 是 可 以 接受 的 。 

尽管 有 上 面 的 评论 ,人 们 对 用 ANN 表示 的 复杂 误差 曲面 的 梯度 下 降 理 解 得 还 是 不 够 ,还 
不 知道 有 何方 法 能 确切 地 预测 局 部 极 小 值 什么 时 候 会 导致 困难 。 用 来 缓解 局 部 极 小 值 问题 的 
-… 些 常见 的 启发 式 规则 包括 : 

© 像 公式 (4.17) 描 述 的 那样 ,为 梯度 更 新 法 则 加 “个 冲 量 项 。 冲 量 有 时 可 以 带动 梯度 下 

降 过 程 , 冲 过 狭 窑 的 局 部 极 小 值 (然而 ,原则 上 它 也 可 以 带动 梯度 下 降 过 程 冲 过 狭窄 的 
全 局 最 小 值 到 其 他 局 部 极 小 值 !) 。 


ww ai bbt.com PO0O0O0D0D0OO0O 





BAF ALAA 77 


ee rm —r me nr COCO 一 一 一 一 一 一 


o 使 用 随机 的 梯度 下 降 而 不 是 真正 的 梯度 下 降 。 根 据 前 面 的 讨论 ,梯度 下 降 的 随机 近似 
对 于 每 个 训练 样 例 沿 一 个 不 同 的 误差 曲 而 有 效 下 降 , 它 依靠 这 些 梯 度 的 平均 来 近似 对 
于 整个 训练 集合 的 梯度 。 这 些 不 同 的 误差 曲面 通常 有 不 局 的 局 部 极 小 值 , 这 使 得 下 降 
过 程 不 太 可 能 陷入 任意 一 个 局 部 极 小 值 。 

se 使 用 同样 的 数据 训练 多 个 网 络 , 但 用 不 同 的 随机 权 值 初始 化 每 个 网 络 。 如 采 不 同 的 囊 
练 产生 不 同 的 局 部 极 小 值 ,那么 对 分 离 的 验证 集合 性 能 最 好 的 那个 网 络 将 镁 选中。 或 
者 保留 所 有 的 网 络 ,并 且 把 它们 当 作 一 个 网 络 " 委 员 会 ,它们 的 输出 是 每 个 网 络 输出 的 
平均 值 (可 能 机 权 )。 


4.6.2 前 馈 网 络 的 表征 能 力 


什么 类 型 的 冰 数 可 以 使 用 前 人 馈 网 络 来 表示 呢 ? 当然 这 个 问题 的 答案 依赖 于 网 络 的 宽 艇 和 
深度 、 尽 管 目 前 对 哪 一 族 函 数 可 以 用 哪 种 类 型 的 网 络 描述 还 知道 得 很 少 ,但 已 经 知道 了 三 个 
一 般 性 的 结论 : 
ese BK. 任何 布尔 函数 可 以 被 具有 两 层 单元 的 网 络 准 确 表 示 , 尽 管 在 最 坯 的 情况 下 
所 沉 隐 蕊 单元 的 数量 随 着 网 络 输入 数量 的 增加 成 指数 级 增长 。 为 了 说 明 这 是 如 何 实 现 
的 ,考虑 下 面 表 示 任 意 布 尔 哨 数 的 通用 方案 : 对 于 每 一 个 可 能 的 输入 向 量 ,创建 不 同 的 
隐藏 单 元 ,并 设置 它 的 权 值 使 当 且 仪 当 这 个 特定 的 向 量 输 入 到 网 络 时 该 单元 被 激活 。 
这 样 就 产生 了 一 个 对 于 任意 输入 仅 有 一 个 单元 被 激活 的 隐藏 层 。 接 下 来 把 输出 单元 实 
更 为 一 个 仅 由 所 希望 的 输入 模式 激活 的 或 门 (OR gate). 

ete RR. 每 个 有 界 的 连续 函数 可 以 由 一 个 两 层 的 网 络 以 任意 小 的 误差 {在 有 限 的 范 数 
下 ) 逼 近 (Cybenko 1989, Hornik et al. 1989)。 这 个 理论 适用 于 在 隐藏 层 使 用 sigmoid 单元 .在 
输出 层 使 用 ( 非 疯 值 的 ) 线 性 单元 的 网 络 。 所 希 的 隐藏 单元 数量 依赖 于 要 通 近 的 岁数 . 

ee BH. 任意 下 数 可 以 被 一 个 有 .二 良 单 元 的 网 络 以 任意 精度 通 近 (4Cybenko 1988), 
与 前 面相 同 , 输 出 层 使 用 线性 单元 ,于 个 隐藏 层 使 用 sigmoid 单元 ,每 一 层 所 需 的 单元 数 
量 一 般 不 确定 。 这 一 结论 的 证 明 方法 为 : 首先 说 明 任 意 函 数 可 以 被 计 多 局 部 化 力 数 的 
线性 组 合 逼 近 ,这 些 局 部 化 函数 的 值 除了 某 个 小 范围 外 都 为 0; 然后 说 明 两 层 的 sigmoid 
BG AE UTE BATH ARNE o 

这 些 结论 表明 有 限 深 度 的 前 馈 网 络 为 反 向 传播 算法 提供 了 非常 有 表征 力 的 假设 字 间 。 然 
而 记 住 下 而 一 点 是 重要 的 : 梯度 下 降 是 从 一 个 初始 的 权 值 开始 的 ,因此 搜索 范围 里 的 网 络 权 
癌 量 可 能 不 包含 所 有 的 权 向 量 。Hertz et al.(1991) 提 供 了 上 面 结论 的 更 详细 的 讨论 。 


4.6.3 假设 空间 搜索 和 归纳 侦 重 


把 反 向 传播 算法 的 假设 空间 搜索 和 其 他 学 习 算 法 采取 的 搜索 相 比 较 很 有 意义 。 对 于 上 反 辣 
传播 算法 ,网 络 权 的 每 一 种 可 能 赋值 都 表示 了 一 个 句法 不 同 的 假设 ,原则 上 都 在 学 习 恬 的 考虑 
范围 内 。 换 句 话 说 ,这 个 假设 空间 是 n 个 网 络 权 值 的 5 RRS. ER. APS ee 
的 ,这 与 决策 树 学 习 和 其 他 基于 离散 表示 的 方法 的 假设 空间 完全 不 同 。 假 设 空间 的 连续 性 以 
及 误差 E 关于 假设 的 连续 参数 可 微 这 两 个 事实 ,导致 了 一 个 定义 良好 的 误差 梯度 ,为 最 佳 假 
设 的 搜索 提供 了 一 个 非常 有 用 的 结构 。 这 个 结构 与 基于 符号 的 概念 学 习 算 法 的 "一般 到 特殊 
序 " 搜 索 的 结构 ,或 iD3 和 C4.5 算法 中 对 决策 树 的 简单 到 复杂 序 搜索 所 用 的 结构 都 完全 不 
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同 . 

反 向 传播 算法 从 观测 数据 中 泛 化 的 归纳 偏 置 是 什么 呢 ” 精确 地 刻画 出 反 向 传播 学 习 的 归 
纲 偏 置 是 有 难度 的 ,因为 它 依赖 于 梯度 下 降 搜索 和 权 空 间 恬 凑 可 表 生 上 男 数 空间 的 方式 的 相互 
eA. Att, A ext FH ee Hb Z ay Ay BK HE =P Pe AGE smooth interpolation be- 
tween data points) 。 如 果 给 定 两 个 正 例 ,它们 之 间 没 有 有 反例 ,反问 传 播 算法 会 怖 向 于 把 这 两 点 
之 间 的 点 也 标记 为 正 例 。 例 如 ,在 图 4-5 画 出 的 决策 面 中 可 以 看 到 这 一 点 ,训练 样 例 的 特定 样 
本 产生 了 平滑 变化 的 决策 区 域 。 


4.6.4 隐藏 层 表 示 


反 向 传播 算法 的 一 个 迷人 的 特性 是 , 它 能 够 在 网 络 内 部 的 隐藏 层 发 现 有 用 的 中 间 表 示 、 
因为 训练 样 例 仅 包 含 网 络 输入 和 输出 , 权 值 调节 的 过 程 可 以 上 自由 地 设置 权 值 , 米 定义 任何 隐藏 
单元 表示 ,这 些 隐藏 单元 表示 在 使 误差 平方 站 达到 最 小 化 时 最 有 效 。 这 人 能够 引导 反 向 传播 算 
法 定义 新 的 隐藏 层 特征 ,这 些 特 征 在 输入 中 没有 明确 表示 出 米 , 但 却 能 捕 换 输入 实例 中 与 学 寺 
目标 函数 最 相关 的 特征 。 

例如 ,考虑 图 4-7 所 示 的 网 络 。 这 里 ,8 个 网 络 输 人 与 3 个 隐藏 单元 相连 ,3 TBR a 
依次 连接 到 8 个 输出 单元 。 由 于 这 样 的 结构 ,3 个 隐藏 单元 必须 重新 表示 8 个 输入 值 , 以 某 种 
方式 捕 提 输入 的 相关 特征 ,以 便 这 个 隐藏 屋 的 表示 可 以 被 输出 单元 用 来 计算 正确 的 目标 值 。 


—y 一 
—y 一 
一 一 
一 -一 
=> => 
一 一 
> > 
—y 一 





这 个 8x3x8 的 网 络 被 训练 以 学 习 恒 等 阔 数 , 使 用 图 中 所 示 的 8 个 训练 样 例 。 在 5000 fÈ ( epochs) 训练 之 后 ,3 
个 隐藏 单 元 使 用 图 右手 的 编码 方式 来 编码 8 个 相 筷 不 同 的 输入 。 注 意 , 如果 把 编码 后 的 值 四 宅 五 入 为 属相 1， 
那么 结果 是 8 个 不 同仁 的 标准 --: 进 制 编码 

图 4-7 党 习 到 的 隐藏 层 表示 


考虑 训练 图 4-7 所 示 的 网 络 ,来 学 习 简单 的 目标 函数 f(a) = x, 其 中 ,x 是 含有 上 七 个 0 利 
-个 1 的 向 量 。 网 络 必须 学 会 在 8 个 输出 单元 重 现 这 8 个 输入 。 尽 管 这 是 一 个 简单 的 随 数 ， 
但 现在 限制 网 络 只 能 使 用 3 个 隐藏 单元 。 所 以 ,学 习 到 的 3 个 隐藏 单元 必须 捕 提 住 来 自 8 个 
输入 单元 的 所 有 关键 信息 。 

当 反 向 传播 算法 被 用 来 完成 这 个 任务 时 ,使 用 8 个 可 能 向 量 作为 训练 样 例 , 它 成 功 地 学 会 
了 目标 函数 。 梯 度 下 降 的 反 向 传播 算法 产生 的 隐藏 层 表示 是 什么 呢 ? 通过 分 析 学 习 到 的 网 络 
对 于 8 个 可 能 输入 向 量 产 生 的 隐藏 单元 的 值 ,可 以 看 出 学 到 的 编码 和 熟知 的 对 8 个 值 使 用 3 
位 标准 二 进 制 编码 相同 (也 就 是 000,001,010,……,111)。 图 4-7 显示 了 反 向 传播 算法 的 一 次 
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志和 7 中 计算 出 的 这 3 个 隐藏 单元 的 确切 值 . 

多 层 网 络 在 隐藏 层 目 动 发 现 有 用 表示 的 能 力 是 ANN 党 习 的 一 个 关键 特性 ， 与 却 些 仪 限 
于 使 用 人 人 类 设计 者 提供 的 预定 义 特 征 的 学 习 方 法 相 比 ,和 亡 提 供 了 -~ 种 相当 重要 的 灵活 性 一 一 
多 汪 学 习 右 创造 出 没 计 者 没有 其 确 引 人 人 的 特征 当然, 人 这些 创造 出 的 特征 一 定 是 网 络 输 入 的 
sigmoid 单元 落 数 可 以 计算 出 的 ,注意 ,网 络 中 使 用 的 单元 屋 越 多 ,就 可 以 创造 出 越 复 村 的 特 
征 。 第 4.7 节 要 讨论 的 人 脸 识别 应 用 提供 了 隆 藏 单元 特征 的 另 一 个 例子 。 

为 了 增强 对 这 个 例子 中 反 回 传播 算法 操作 的 直观 理解 ,让 我 们 更 详细 地 分 析 梯 度 下 降 过 
程 中 的 具体 操作 2。 使 用 表 4-2 中 的 算法 训练 图 4-7 中 的 网 络 ,设置 初始 的 权 值 为 区 问 
(-0.1, 0.1) 中 的 随机 数 ,学习 速率 =0.3, 没 有 权 症 量 ( 如 ,ax =0)。 使 用 其 他 的 学 悦 速率 和 
使 用 非 0 的 冲 量 得 到 的 结果 相似 。 图 4-7 中 闻 示 的 隐藏 单元 编码 是 在 执行 了 算法 的 外 层 训练 
迭代 5000 次 后 得 到 的 (也 就 是 对 8 个 训练 样 例 的 每 一 个 迭代 5000 HK). 然而 ,吸引 我 们 注意 
的 大 包 数 权 值 变化 发 生 在 前 2500 K. 

我 们 可 以 描绘 出 输出 误差 的 平方 相对 梯 上 央 下 降 搜索 步 数 的 泡 数 曲线 ,这 样 就 可 以 衣 接 焕 
察 反 向 传播 算法 的 梯度 下 降 搜 索 的 效果 。 它 显示 在 图 4-8 中 最 上 面 的 曲线 图 中 .这 帐 图 的 8 
Se HAZEL AE 8 个 网 络 输 出 ,每 一 条 曲线 都 显示 了 相应 的 网 络 输出 对 所 有 训练 样 例 的 浊 差 站 广 
Al, 横 轴 表示 反问 传播 算法 的 最 外 层 适 代 的 人 次数。 如 图 所 示 ,每 个 输出 的 误差 平方 和 随 着 梯 
度 上 下降 而 下 降 , 某 些 单元 较 快 , 某 些 单元 较 慢 。 

隐藏 单 元 表示 的 演变 过 程 可 以 在 图 4-8 的 第 二 幅 图 中 看 到 。 这 幅 图 部 小 了 对 于 一 个 可 能 
的 输入 (这 幅 图 对 应 的 是 01000000) 网 络 计 算出 的 三 个 隐藏 单元 值 。 和 前 面 一 样 , 横 轴 表 水 i 
练 循环 的 次 数 。 如 图 所 示 , 这 个 网 络 在 收 合 到 如 图 4-7 PSS EY eS A TRS 
不 同 的 编码 。 

最 后 ,图 4-8 中 的 第 3 幅 图 画 出 了 网 络 中 各 个 权 值 的 演变 过 程 。 这 幅 图 显示 「 广 连接 8 个 
输入 单元 (和 一 个 常量 人 篇 置 输 人 (constantl bias input)) 到 3 个 隐藏 单元 之 一 的 权 值 的 演变 过 
各 -注意 ,这 个 隐藏 单元 权 值 的 显著 变化 与 隐藏 居 编 码 和 输出 误差 平方 的 显 凋 变 化 一 化 ”这 
里 收敛 到 接近 0 值 的 权 是 偏 置 权 woe 


4.6.5 泛 化 过度 拟 合 和 停止 判 据 


ER 4-2 对 反 向 传播 算法 的 描述 中 ,没有 指定 算法 使 用 的 终止 条 件 、 终 政权 仁 吕 新 循 十 
的 合适 条 件 是 什么 呢 ? 很 明显 ,一 种 选择 是 继续 训练 直到 对 训练 样 例 的 误差 上 降低 至 处 个 纠 
先 定 义 的 阅 值 之 下 。 事 实 上 ,这 不 是 -个 好 的 策略 ,因为 及 向 传播 算法 容易 过 度 拟 从 训 练 样 
例 ,降低 对 于 其 他 未 多 过 实例 的 泛 化 精度 。 

为 了 看 出 使 训练 数据 上 误差 最 小 化 的 危险 ,考虑 误差 FE MRE E BUAR BOE 
的 。 图 4-9 显示 了 两 个 相当 典型 的 反 向 传播 算法 应 用 中 的 这 种 变化 。 育 和 完 考 虚 图 中 工 曾 .由 
曲线 图 。 两 条 曲线 中 较 低 的 一 条 显示 了 在 洲 练 集合 土 的 误差 E 随 着 梯度 下 降 庆 代 次 数 的 坊 
加 而 单调 下 妖 。 较 高 的 曲线 是 在 一 个 与 训练 样 例 不 同 的 验证 集合 的 实例 上 测 到 的 误差 的 


O 这 个 例子 的 水 代码 可 以 从 http: “www . cs. cmu. edu” ~ tom mlbook . html 得到. 
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网 络 拟 合 训练 数据 外 的 实 





情 疯 、 这 条 线 测 量 了 网 络 的 还 化 精度 ( generalization accuracy ) 
例 的 精度 。 
TG RERA A 





0 500 1000 1500 2000 2500 


最 上 图 显示 了 随 闭 训练 选 代 次 数 ( 轮 救 ) 的 增加 ,8 个 输入 的 误差 平方 和 的 演变 。 中 图 显示 了 对 于 输 大 帅 
“01000000" 的 隐藏 层 表示 的 演变 。 下 图 显示 了 3 个 隐藏 单元 之 一 的 权 值 汗 变 过 竹 


图 43 学 习 8x3x8 网 络 
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误 益 相对 权 值 更 新 次 数 变化 曲线 ALT) 
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两 种 情况 下 ,在 训练 样 例 上 的 误差 2 AR TEE, E A REE F RER H iR AHER PR. At PRE 
合 中 的 样 例 , 误 差 三 通常 先 下 降 , 热 后 误 次 可 能 因为 过 度 拟 合 训练 样 全 而 上 升 。 最 有 可 能 正确 证 化 到 未 见 过 数 
据 的 网 络 是 对 于 验证 案 合 有 最小 误差 的 网 络 。 注 疙 在 第 二 幅 曲 线 图 中 ,此 须 小 心 丰 要 过 早 停 目 刘 练 ,因为 在 驻 


TRA EMA £ ERB 850 次 时 开始 土 升 而 后 又 下 降 
图 4-9 PAP AOL ARIES BR 五 相对 权 值 更 新 网 数 的 变化 砷 线 


注意 ,尽管 在 训练 样 例 上 的 误差 持续 下 降 , 但 在 验证 样 例 上 测量 到 的 误差 E2 先 下 降 , 然 
后 上 升 。 为 什么 会 发 生 这 种 现象 呢 ? 这 是 因为 这 些 权 值 拟 合 了 训练 样 例 的 “特异 性 (idiosyn- 
crasy) ,而 这 个 “特异 性 ”对 于 样 例 的 一 般 分 布 没 有 代表 性 。ANN 中 大 量 的 权 值 参 数 为 拟 合 这 


样 的 “特异 性 "提供 了 很 大 的 自由 度 。 


为 什么 过 度 拟 合 往往 是 发 生 在 迁 代 的 后 期 ,而 不 是 近代 的 早期 呢 ?” 设 想 网 络 的 权 值 是 被 
初始 化 为 小 随机 值 的 ,使 用 这 些 几 乎 一 样 的 权 值 仪 能 描述 非常 平滑 的 决策 面 。 随 奢 训 练 的 进 
行 ,一 些 权 值 开始 增长 ,以 降低 在 训练 数据 上 的 误差 ,同时 学 习 到 的 决策 面 的 复杂 度 也 在 提高 。 
于 是 , 随 着 权 值 调整 迭代 次 数 的 增加 , 反 向 传播 算法 获得 的 假设 的 有 效 复杂 度 也 在 增 旭 。 如 条 
权 值 调整 迁 代 次 数 足 够 多 , 反 向 传播 算法 经 常会 产生 过 度 复杂 的 决策 面 , 拟 合 了 训练 数据 中 的 
噪声 和 训练 样 例 中 没有 代表 性 的 特征 。 这 个 过 度 拟 会 问题 与 决策 树 学 习 中 的 过 度 拟 合 问题 相 


O RASA IRA generalization accuracy 先 下 降 后 上 升 ,显然 这 里 的 generalization accuracy RA error E's —— FER TE 
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似 { 见 第 3 章 )。 

有 几 种 技术 可 以 用 于 解 桨 反问 忧 播 中 的 过 度 拟人 台 辣 题 。 一 种 方法 被 称 为 权 值 襄 减 
(weight decay) EL FERRIER TE PRED PREPARE, OE THE E AE 
WA PSMA ETI, ORE ALTE POR RAR BED. Mim eee of 
FED SL ARR TB AD PD DE 

解决 过 度 拟 合 问题 的 一 个 最 成 功 的 方法 就 是 在 训练 数据 由 再 为 算法 提供 … 套 验 让 数据 
(ralidation data)， 算 法 在 使 用 训练 集合 驱动 梯度 下 降 搜 索 的 同时 ,监视 对 于 这 个 验证 集合 
的 误差 。 从 本 质 上 讲 , 这 相当 于 允许 算法 本 如 前 出 图 4-9 中 显示 的 防 条 曲线 。 算 法 应 该 进行 
多 少 次 权 值 调整 迭代 呢 ?” 显 然 , 应 该 使 用 在 验证 集合 上 产生 最 小 误差 的 迭代 次 数 , 因 为 这 是 网 
络 性 能 对 于 未 见 过 实例 的 最 好 表征 ， 在 这 种 方法 的 典型 实现 中 ,网络 的 权 值 被 保留 网 份 找 贝 : 
一 份 用 来 训练 ,而 另 一 份 拷贝 作为 目前 为 止 性 能 最 好 的 权 , 稀 基 的 标准 是 它们 对 于 验 让 集合 的 
误差 ,， 一 -日 训练 到 的 权 值 在 验证 集合 上 的 谋 差 比 保 存 的 权 值 的 误差 高 ,训练 就 被 终止 ,并 耳 迟 
回 保 存 的 权 值 作为 最 终 的 假设 。 当 这 个 过 程 被 应 用 人 色 图 4-9 中 最 上 图 的 情况 时 , 它 将 输出 在 
9100 次 和 迭代 后 网 络 得 到 的 权 值 。 图 4-9 的 第 一 幅 曲 线 图 显示 ,不 是 总 能 明显 确定 验 订 集合 何 
时 达 色 最 小 误差 、 在 这 幅 图 中 ,验证 集合 的 误差 先 下 降 ,然后 上 升 ,然后 冉 焉 降 ，、 所 以 必须 注 
意 履 免 错 误 的 结论 :在 850 次 迭代 后 网 络 到 达 了 它 的 最 小 验证 集合 误 益 、 

-Am a ,过 度 拟 合 问题 以 及 克服 它 的 方法 是 -个 坏 手 的 问题 。 上面 的 交叉 台 证 方法 在 
可 非得 额外 的 数据 提供 验证 集合 时 工作 得 最 好 ,， 然 而 遗憾 的 是 ,过 度 氢 合 的 问题 对 小 训练 集 
合 最 为 严重 ， 在 这 种 情况 下 ,有 时 使 用 一 种 称 汶 "大 foid 22 UE” ( -fold cross-validation ) 的 
方法 ,这 种 方法 进行 天 次 不 同 的 交叉 验证 ,每 次 使 用 数据 的 不 同 分 割 作为 训练 集合 和 验证 集 
合 , 然 后 对 结果 进行 平均 。 在 这 种 方法 的 一 个 版 本 中 ,把 可 供 使 用 的 m 个 实例 分 割 成 下 个 不 
相交 的 子 集 FER FRA m/k AEH R EIT k KELELE, i- :次 使 用 不 同 的 下 
集 作 为 验证 集合 ,并 合并 其 他 的 子 集 作 为 训练 集合 。 于 是 ,每 一 个 样 例会 在 一 次 实验 中 被 用 作 
验证 集合 的 成 员 , 在 -1 次 实验 中 用 作 训 练 集合 的 成 员 。 在 每 次 试验 中 ,都 使 用 上 面 讨 论 的 
交叉 验证 过 程 来 决定 在 验证 集合 上 取得 最 佳 性 能 的 选 代 次 数 o 然后 计算 这 些 i EL: ie 
后 运行 -- 次 反 疝 传播 算法 ,训练 所 有 m 个 实例 并 选 代 ; 次 ,此 时 设 有 验证 集合 这 个 过 程 3 
第 5 童 描述 的 基于 有 限 数据 比较 两 种 学 习 方法 的 过 程 很 相近 。 


4.7 举例 : 人 脸 识 别 

为 了 说 明 反 向 传播 算法 应 用 中 的 一 些 实际 的 设计 问题 ,这 一 节 讨 论 把 这 个 算 读 应 用 到 人 
脸 识 别 的 学 习 任 务 。 这 一 节 用 来 产生 这 个 例子 的 所 有 图 像 数据 和 代 馈 都 可 以 从 以 下 网 址 得 到 
: http: éwww.cs.cmu.edu/ ~ tom/mlbook . html, Elati g ani (Ae BS. 
污 者 可 以 自己 进行 试验 。 
4.7.1 fs 

这 里 的 学 习 任 务 是 对 不 同人 的 不 同 姿 态 的 摄影 图 像 进行 分 类 。 我 们 收集 了 20 个 不 同 的 
大 的 摄影 图 像 ,每 个 人 大 约 有 32 张 图 像 ,对 应 这 个 人 不 同 的 表情 (快乐 , 诅 关 ,愤怒 ,中 性 ) ,他 
们 看 的 不 同方 向 ( 左 , 右 , 正 前 ,上 ) 和 他 们 是 否 戴 太 阳 镜 。 从 图 4-10 的 示例 图 像 中 可 以 看 到 ， 
人 人 后面 的 背景 . 穿 的 衣服 和 人 脸 在 图 像 中 的 位 置 也 都 有 差异 。 我 们 共 收 集 了 624 KERR. 
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每 -一 幅 的 分 辨 率 为 120 x 128 ,图 像 的 每 个 像素 使 用 0( 黑 色 ) 到 255( 白色 ?的 灰 度 值 描述 。 


| lal 


30x<32 分 状 率 的 输 人 图 剧 
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对 每 个 训练 样 例 选 代 1 次 后 的 网 络 权 值 











RE TE PUI SEE ATE AR, 100 次 后 的 网 络 权 杆 
这 里 使 用 估 脸 的 京 度 图 像 { 见 最 上 上 一行) 训练 一 个 960 x 3 x 4 的 网 络 ,来 预测 一 个 人 是 宪 向 左 . 向 右 , 向 前 还 是 
向 上 看 。 在 使 用 了 260 幅 这 样 的 图 像 训练 后 ,这 个 网 络 对 于 独立 的 验证 集合 达到 了 % 锡 的 精度 。 转 中 也 显示 
了 使 用 训练 样 例 选 代 1 次 后 和 选 代 100 次 后 的 网 络 权 值 。 每 个 输出 单元 ( 左 ,前 , 右 , 上 }) 有 四 个 权 值 ,用 暗 { 负 ) 
ARO ARG AN, REMAARUWR wo, 它 决定 单元 的 阅 值 ,右面 的 三 个 方块 对 应 从 二 个 隐藏 单 元 输 
人 的 权 。 图 中 也 显示 了 每 个 像 农 输入 到 每 个 隐藏 单 六 的 权 值 被 画 在 对 应 像素 的 位 置 上 


图 4-10 学 习 识 别人 和 脸 刘 和 癌 的 大 工 神 经 网 络 


从 这 些 图 像 数据 中 可 以 和 学习 很 多 不 同 的 目标 轴 数 。 例 如 ,我 们 可 以 训练 一 个 ANN ,使 输 
人 给 定 的 一 幅 图 像 时 输出 这 个 人 的 惟一 标识 (identity) J SA TES ARS. A 
有 这 些 目 标 函 数 可 以 以 很 高 的 精度 从 这 些 数据 中 学 习 到 ,我 们 鼓励 读者 自行 试验 。 在 本 节 后 
面 的 部 分 ,我 们 考虑 一 个 特定 的 任务 :学 习 图 像 中 人 脸 的 朝向 ( 左 , 右 , 正 前 , 朝 上 )。 


4.7.2 ire 


应 用 反 向 传播 算法 到 一 个 给 定 任务 时 ,必须 决定 几 个 设计 要 率 。 下 面 归纳 出 了 学 习 人 脸 
朝向 这 个 学 习 任 务 的 一 些 设计 要 素 。 尽 管 我 们 没有 打算 去 选择 精确 的 最 优 设计 ,但 这 里 描述 
的 设计 对 自 标 函数 学 习 得 相当 好 。 在 训练 了 260 幅 图 像样 例 之 后 ,对 于 独立 测试 集合 的 精度 
达到 90%。 相 对 而 言 , 如 果 随 机 猜测 四 个 脸 朝 向 中 的 一 个 ,只 能 达到 25 名 的 正确 率 。 
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输入 编码 ”已 经 知道 ANN 的 输 人 必然 是 图 像 的 某 种 表示 ,那么 设计 的 关键 是 如 何 编码 
这 幅 图 像 。 例 如 我 们 可 以 对 图 像 进行 预 处 理 ,来 分 解 出 边缘 ,亮度 一 致 的 区 域 或 其 他 局 部 图 像 
特征 .然后 把 这 些 特征 输入 网 络 。 这 种 设计 的 一 个 问题 是 会 导致 每 幅 图 像 有 不 同 数量 的 特 竺 
参数 (例如 ,边缘 的 数量 ) ,然而 ANN 上 共有 国定 数量 的 输 和 单元。 在 此 ,我 们 的 设计 是 把 多 像 
编码 成 固定 的 30 x 32 像素 的 亮度 值 , 每 个 像素 对 应 一 个 网 络 输入 。 并 且 把 范围 证 0 到 255 的 
亮度 值 按 比例 线性 缩放 到 0 到 1 的 区 间 内 ,以 使 网 络 输 和 人 与 隐藏 单元 和 输出 单元 在 同样 的 区 
间 皮 值 。 实 际 上 ,这 里 的 30 x 32 像素 图 像 就 是 原来 120 x 128 像素 的 图 像 的 低 分 辨 座 概 打 ,每 
个 低 分 闪 率 像素 根据 对 应 的 若干 高 分 辩 率 像素 亮度 的 均值 计算 得 到 。 使 用 这 样 的 低 分 辩 率 图 
ie ,把 输入 个 数 和 权 值 的 数量 减少 到 了 一 个 下 易 于 处 理 的 规模 ,从 而 降低 了 运算 要 求 ,但 同时 
也 保留 了 足够 的 分 辩 率 以 正确 分 类 图 像 ， 回 所 在 图 4-1 中 ,ALVINN 系统 使 用 了 相似 的 低 分 
状 率 图 像 作为 网 络 的 输入 。 一 个 有 趣 的 差别 是 ,在 ALVINN 中 ,每 一 个 低 分 辩 率 像素 的 党 度 
等 于 从 高 分 辨 率 图 像 对 应 的 区 域 中 随机 取 一 个 像素 的 亮度 ,而 不 是 了 这 个 区 域 中 所 有 像素 腕 
度 的 均值 。 其 动机 是 为 了 明显 地 减少 从 高 分 辩 率 图 像 产生 低 分 辨 率 图 像 所 南 的 运算 硬 ， 这 个 
效率 对 于 ALYINN 系统 是 特别 重要 的 ,因为 在 自动 驾驶 车 辆 的 过 程 中 ,ALYINN AoE 
DA GATE Fe Bb Bp AL EAB & I BS 

输出 编码 ANN 必须 输出 四 个 值 中 的 一 个 来 表示 输入 图 像 中 入 脸 的 朝 回 ( 左 , ot, 
前 ) 注意 我 们 可 以 使 用 单一 的 输出 单元 来 编码 这 四 种 情况 的 分 类 ,例如 ,指定 输出 什 0.2、 
0.4.0.6 和 0.8 来 编码 这 四 个 可 能 值 。 不 过 这 里 我 们 使 用 4 个 不 同 的 输出 单元 ,每 :个 对 点 
四 种 订 能 朝向 中 的 一 种 , 取 具 有 最 高 值 的 输出 作为 网 络 的 预测 值 。 这 种 方法 经 党 葵 称 为 n 
] (1-of-n) 输 出 编码 。 选 择 n 取 1 输出 编码 而 不 用 单个 单元 有 两 个 原因 。 第 -一 ,这 为 网 络 表 涉 
日 标 酒 数 提供 了 更 大 的 自由 度 ( 即 在 输出 层 单元 中 有 n BATE). AE n HT 编码 
中 ,最 高 值 输 出 和 次 高 值 输出 间 的 差异 可 以 作为 对 网 络 预 测 的 置信 度 { 不 明确 的 分 类 可 能 导致 
引 果 相近 或 相等 )。 进 一 步 的 设计 问题 是 “这 4 个 输出 单元 的 目标 值 应 该 是 什么 ?" 一 个 时 而 多 
见 的 办 法 是 用 4 个 自 标 秆 (1,0,0,0) 来 编码 脸 朝 向 左 , 《0,1,0,0) 来 编码 脸 砷 向 正 前 ,依次 类 
推 。 我 们 这 里 使 用 0.1 和 0.9, 而 不 是 0 和 1, 即 (0.9,0.1,0.1,0.1) 表 示 脸 朝向 左 的 日 标 输出 
向 量 。 避 兔 使 用 0 和 1 作为 自 标 值 的 原因 是 sigmoid 单元 对 于 有 限 权 值 不 能 产生 这 样 的 输出 ， 
如 果 我 们 企图 训练 网 络 来 准确 匹配 目标 值 0 和 1, 梯度 下 降 将 会 迫使 权 值 无 限 增 长 。 而 值 0.] 
和 0.9 是 sigmoid 单元 在 有 限 权 值 情况 下 可 以 完成 的 。 

网 络 结构 图 ”正如 前 而 所 找 述 的 , 反 向 传播 算法 可 以 被 应 用 到 任何 有 同 无 环 sigmoid 单 
元 的 网 络 ,所 以 ,我 们 而 临 的 另 一 设计 问题 是 ,这 个 网 络 包含 多 少 个 单元 以 及 如 何 互 连 。 最 痛 
谢 的 一 种 网 络 结构 是 分 层 网 络 , 一 层 的 每 个 单元 向 前 连接 到 下 一 层 的 每 一 个 单元 。 目前 的 设 
计 选 择 了 这 样 的 标准 结构 ,使 用 两 层 sigmoid 单元 (一 个 隐藏 层 和 一 个 输出 后 ) 使 用 一 或 两 
层 sigmoid 单元 是 很 普遍 的 ,偶尔 使 用 三 层 。 使 用 更 多 的 层 是 不 常见 的 ,因为 训练 时 间 会 七 得 
很 长 ,而 且 三 层 sigmoid 单 元 的 网 络 已 经 能 够 表示 数量 相当 大 的 目标 渗 数 ( 见 第 4.6.2 节 )。 我 
们 已 经 确定 选择 有 一 个 隐藏 层 的 分 层 前 锁 网 络 ,那么 其 中 应 该 包含 多 少 个 隐藏 单元 呢 ? 在 图 
4-10 的 结果 中 , 仅 使 用 了 三 个 隐藏 单元 ,就 达到 了 对 测试 集合 90% 的 精度 。 在 另 一 个 使 用 30 
个 隐藏 单元 的 实验 中 ,得 到 的 精度 提高 了 一 到 两 个 百分点 。 尽管 这 两 个 实验 得 到 的 泛 化 精度 
相差 很 小 .但 后 一 个 试验 明显 需要 更 多 的 训练 时 间 。 使 用 260 幅 了 图 像 的 训练 样 例 ,30 个 隐藏 
单元 的 网 络 在 Sun Spares 工作 站 上 的 训练 时 间 大 约 是 一 个 小 时 。 相对 而 言 ,三 个 隐藏 单元 的 
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网 络 太 约 是 5 人 分钟。 人们 已 经 发 现在 很 多 应 用 中 需要 某 个 最 小 数量 的 隐藏 单元 来 精确 地 学 局 
日 标 函 数 ,并 且 赵 过 这 个 数量 的 多 余 的 隐藏 单元 不 会 显著 地 提高 活化 精度 ,前 提 条 件 是 使 用 交 
又 验证 方法 来 决定 应 该 进行 多 少 次 梯度 下 噬 送 代 。 如 果 没 有 使 用 交叉 验证 ,那么 增加 隐藏 单 
元 数量 经 党 会 增加 过 度 报 合 训练 数据 的 倾 呵 ,从 市 降低 汉化 精度 。 

学 习 算 法 的 其 他 参数 ”在 这 个 实验 中 ,学 习 速 率 y 被 设 定 为 0.3, 冲 量 a 被 设 定 为 0.3. 
峰 闻 这 两 个 参数 更 低 的 值 会 产生 大 体 相当 的 泛 化 精度 ,但 需要 更 长 的 训练 时 间 ,， 如果 这 两 个 
值 被 设 定 得 太 高 ,训练 将 不 能 收敛 到 一 个 具有 可 接受 误差 (在 训练 集合 上 ) 的 网 络 。 在 整个 试 
验 中 我 们 使 用 完全 的 梯 庶 下 降 ( 和 表 4-2 算法 中 随机 近似 的 梯度 下 降 不 同 )。 输 出 单元 的 网 络 
权 伍 锌 初始 化 为 小 的 随机 值 。 然 而 输入 单元 的 权 值 被 初始 化 为 0, 因为 这 样 可 以 使 学 习 到 的 
PUHAS AT LAC COLES 4-10) 更 易于 理解 ,而 对 汉化 精度 没有 明显 的 影响 。 训 练 的 迭代 次 数 的 选 
拌 可 以 通过 分 割 可 用 的 数据 为 训练 集合 和 独立 的 验证 集合 来 实现 。 梯 度 下 降 方法 被 用 于 最 小 
化 训练 集合 上 的 误差 ,并 日 每 隔 50 次 梯度 下 降 迁 代 根 据 验证 集合 评估 一 次 网 络 的 性 能 。 最 终 
选择 的 网 络 是 对 验证 集 全 精度 最 高 的 网 络 。 可 以 参见 第 4.6.5 节 得 到 关于 这 个 过 程 的 解释 和 
依据 。 最 终 报 告 的 精度 (对 于 图 4- 10 中 的 网 络 也 就 是 90% ) 是 在 没有 对 训练 产生 任何 影响 的 
第 三 个 集合 一 一 测试 集合 上 测量 得 到 的 。 


4.7.3 学 习 到 的 隐藏 层 表 示 


有 必要 分 析 一 下 网 络 中 学 习 得 到 的 2899 个 号 权 值 。 图 4-10 描绘 了 对 所 有 训练 样 例 进行 
一 次 权 值 更 新 后 的 每 个 权 值 和 100 次 更 新 后 的 权 值 。 

为 了 理解 这 些 图 像 ,和 对 考虑 图 中 暴 挨 人 脸 图 黎 下 的 四 个 乍 形 。 每 一 个 矩形 描绘 了 网 络 中 
四 个 输出 单元 (编码 了 左前. 右 和 上 ) 中 的 一 个 权 值 。 每 个 第 形 中 的 四 个 小 方形 表示 和 这 个 和 输 
出 单元 关联 的 四 个 权 值 一 一 最 左边 是 权 wo, 它 决定 单元 的 冰 值 ;然后 是 连接 三 个 隐藏 单元 到 
这 个 簿 出 的 三 个 权 值 。 方 形 的 亮度 表示 权 值 , 亮 白 表 示 较 大 的 正 权 值 ,暗黑 表示 较 大 的 负 权 
值 . 介 于 中 间 的 灰色 阴影 表示 中 等 的 权 值 。 例 如 , 标 为 ”上 ”的 输出 单元 的 阐 值 权 wo 接近 0, 从 
第 一 个 隐藏 单元 来 的 权 值 为 较 大 的 正 值 ,从 第 二 个 隐藏 单元 来 的 权 值 为 较 大 的 负 值 。 

隐藏 单元 的 权 值 显示 在 得 出 单元 的 下 边 。 回 忆 一 下 ,每 个 隐藏 单元 接受 所 有 30 x 32 个 像 
素 输 人 人。 与 这 些 输 人 关联 的 30 x 32 个 权 值 被 显示 在 它们 对 应 的 像素 的 位 置 ( 阔 值 权 wo 被 重 
玖 显示 在 图 像 阵列 的 左 土 角 )。 非 常 有 趣 的 是 ,可 以 看 到 权 的 取 值 通常 对 人 脸 和 身体 出 现 的 图 
像 区 域 特别 敏感 。 

针对 每 一 个 训练 样 例 , 梯 度 下 降 迭 代 100 次 后 的 网 络 权 值 显示 在 图 的 下 部 。 注 意 ,最 左边 
的 障 茂 单元 的 权 值 和 适 代 一 次 时 的 权 值 有 很 大 不 局 , 另 两 个 隐藏 单元 的 权 值 也 有 所 变化 。 现 
在 可 以 分 析 一 下 这 个 最 终 权 值 集 合 中 的 编码 。 例 如 ,假定 输出 单元 指出 一 个 人 是 在 向 右 看 . 
这 个 单元 与 第 二 个 隐藏 单元 间 具 有 一 个 较 大 的 正 权 值 ,与 第 三 个 隐藏 单元 间 具 有 一 个 大 的 负 
权 值 。 分 析 这 两 个 隐藏 童 元 的 权 值 ,容易 看 到 如 果 一 个 人 的 脸 是 转 呵 他 的 右面 (也 就 是 我 们 的 
左面 ) ,那么 他 的 亮度 商 的 应 肤 会 大 致 邱 这 个 隐藏 单元 中 的 较 大 正 值 对 齐 , 同 时 他 的 亮度 低 的 
头发 会 大 致 导 负 权 值 对 齐 , 这 导致 此 单元 输出 一 个 较 大 的 值 。 同 样 的 图 像 会 使 第 三 个 隐藏 单 


— oe 


C2890 = 输入 单元 与 兰 个 隐 单 元 间 连 接 对 应 的 权 (960x 3) + 三 个 隆 单 元 与 四 个 输出 单元 间 连 接 对 应 的 杭 (3x 4) + 
三 个 隐 单 元 和 四 个 输出 单元 的 wo 权 (3+4)。 


ww ai bbt.com PO0O0O0D0D0OO0O 





36 fl # FF 


—S} E - 


元 输出 一 个 接近 0 HA BAER RMT SAM RAF. 
48 人 工 神 经 网 络 的 高 级 课题 


4.8.1 其 他 可 选 的 误 善 郴 数 


正如 前 面 所 指出 的 ,只 要 函数 E 相对 参数 化 的 假设 空间 可 微 ,那么 就 可 以 执行 梯度 下 降 . 
虽然 基本 的 反 向 传播 算法 以 网 络 误差 平方 和 的 形式 定义 ,但 也 有 人 提出 其 他 的 定义 ,以 便 
把 其 他 的 约束 引入 权 值 调整 法 则 。 如 果 定 义 了 一 个 新 的 EE, 那么 就 必须 推导 出 -一 个 新 的 权 值 
调整 法 则 供 榜 度 下 降 使 用 。E 的 其 他 可 选 定义 包括 : 

e 为 权 值 增加 一 个 悉 罚 项 : 如 同 前 面 讨 诊 的 ,我 们 可 以 把 一 个 随 背 权 问 量 幅 新 增 长 的 琐 

加 人 到 EE 中。 这 导致 樟 度 下 降 搜寻 较 小 的 权 值 向 量 , 从 而 减 小 过 度 拟 合 的 风险 。 一 种 
办 法 是 按照 下 面 的 等 式 重 新 定义 E: 
E(w) = 六 > Aiea i ywy 


dE DAE puts 


这 得 到 了 一 个 与 反问 传播 法 则 基本 一 _ 致 的 权 更 新 法 则 ,只 是 在 每 次 和 代 时 为 每 个 权 乘 以 党 
量 (1 -27yw)。 因 此 选择 这 种 5 的 定义 和 使 用 权 训 减 策略 ( 见 练习 4.10) 是 等 价 的 。 

o 对 误差 增加 一 项 目标 函 教 的 斜率 (slope) 或 导 教 ; RARER MARE PALA Her 
值 ,而 有 旦 还 有 关于 目标 画 数 的 导数 。 例 如 ,Simard et 引 .(1992) 描 述 了 -个 字符 识别 有 的 
应 用 ,在 这 个 应 用 中 使 用 了 一 些 训练 导数 来 强迫 网 络 学 习 那 些 在 图 像 平 移 中 不 变 的 了 
符 识别 函数 。 Mitchell and Thrun(1993) 揪 述 了 根据 学 习 器 以 前 的 知识 计算 训练 导数 的 
方法 。 在 这 两 个 系统 中 (在 第 12 章 中 描述 ) , 误 关 函数 都 被 增加 了 一 项 .用 来 衡量 这 萎 
训练 导数 和 网 络 的 实际 导数 河 的 差异 。 shee ah aig 

rca) = ESL Dy [we ato Se 4) 


2 ie DAK outputs 


ee i tl 


XE, ai 表示 对 于 训练 实例 d 的 第 j MARNE. FASS 3 党 是 描述 目标 输出 值 ww 


应 该 如 何 随 输入 值 rh 变化 的 训练 导数 。 与 此 类 似 ， 3 表示 实际 的 学 习 网 络 的 对 应 导 


数 。 常 数 上 决定 匹配 训练 值 相对 于 匹配 训练 导数 的 权 值 。 

© (t $8 xt BARGES KIB (cross entropy) 最 小 化 : 考虑 学 习 一 个 概率 遇 数 ， 比如 根据 这 
个 申请 者 的 年 龄 和 存款 余额 ,预测 一 个 异 贷 申请 者 是 否 会 还 贷 。 尽 管 这 里 的 训练 样 例 
仅 提供 了 布尔 型 的 目标 值 ( 变 么 是 1, 要 么 是 0, 根据 这 个 申请 者 是 否 还 贷 ) ,但 基本 的 目 
标 函 数 最 好 以 申请 者 还 贷 的 概率 的 形式 输出 ,而 不 是 对 每 个 输入 实例 都 企图 输出 明确 的 
0 或 1 值 。 在 这 种 情况 下 ,我们 希望 网 络 输出 一 个 概率 估计 ,可 以 证 明 最 小 化 交叉 精 (eross 
entropy) 的 网 络 可 以 给 出 最 好 的 (也 就 是 极 大 似 然 ) 概 率 估计 ,交叉 业 的 定义 如 下 : 

一 2utalogoz + (1 ~ tg)log(1 - og) 


这 里 ,ou 是 网 络 对 于 训练 样 例 d 输出 的 概率 估计 ,如 是 对 于 训练 样 例 d 的 自 标 值 (0 或 
1)。 第 6 章 讨论 了 何 时 及 为 什么 最 可 能 的 网 络 假 设 就 是 使 交叉 米 最 小 化 的 假设 ,并 推 
导 了 相应 的 sigmoid 单元 的 梯度 下 降 权 值 调整 法 则 。 第 6 章 也 描述 了 在 什么 条 件 下 最 
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可 能 的 假设 就 是 使 误差 平方 和 最 小 化 的 假设 。 

@ 改变 有 效 误差 函 教 了 馆 可 以 通过 权 值 共享 (weight sharing) 来 完成 ,也 就 是 把 与 不 同 单元 
或 输入 相关 联 的 权 " 捆 鲫 在 一 起 " :这 里 的 想法 是 强迫 不 同 的 网 络 权 值 取 一 致 的 值 ,通常 
是 为 了 实施 人 类 设计 者 事先 知道 的 某 个 约束 。 例 如 , Waibel et al. (1989) 和 Lang et al. 
(1990) 描 述 了 神经 网 络 在 语音 识别 方面 的 一 个 应 用 ,其 中 网 络 的 输 人 是 在 一 个 144 毫 
秒 的 时 间 窗 中 不 同时 间 的 语音 频率 分 量 。 在 这 个 应 用 中 可 以 佑 的 一 个 假定 是 :一 个 特 
定语 痛 ( 例 如 “eee" ) 的 频率 分 量 的 识别 是 与 这 个 语 首 在 144 毫秒 时 间 窗 中 出 现 的 确切 
时 间 无 关 的 。 为 了 实施 这 个 约 东 ,必须 强迫 接收 这 个 时 间 窗 不 同 部 分 的 不 同 单 元 共享 
权 值 。 这 样 怖 的 效果 是 约束 了 假设 的 潜在 空间 ,从 而 减 小 了 过 度 拟 合 的 风险 ,提高 了 准 
确 沁 化 到 未 见 过 的 情形 的 可 能 性 。 权 值 共 享 通常 这 样 实现 :首先 在 共 侣 权 值 的 每 个 单 
元 分 别 更 新 各 个 权 值 ,然后 取 这 些 权 值 的 平均 ,再 用 这 个 平均 值 蔡 换 每 个 需要 共享 的 权 
值 。 这 个 过 程 的 结果 是 被 共享 的 权 租 比 没有 被 共享 的 权 值 更 有 效 地 适应 一 个 不 同 的 误 
FE PAR 


4.8.2 其 他 可 选 的 误 着 最 小 化 过 程 


虽然 梯度 下 隆 是 搜寻 使 误差 晴 数 最 小 化 的 假设 的 最 通用 的 方法 之 一 ,但 它 不 总 是 最 高 效 
的 。 当 训练 复杂 的 网 络 时 ,不 难 见 到 反 亲 传播 算法 要 进行 上 万 次 的 权 值 更 新 近代 的 和 情形。 由 
于 这 个 原因 ,人 们 探索 并 提出 了 很 多 其 他 的 权 值 优化 算法 。 为 了 领会 其 他 可 能 的 方法 ,我 们 不 
妨 把 权 值 更 新 方 法 看 作 是 要 决定 这 样 两 个 和 问题 :选择 一 个 改变 当前 权 值 向 量 的 方 铅 ;选择 要 移 
动 的 距离 。 在 反 同 传 播 算法 中 ,这 个 方 问 是 通过 取 梯 度 的 贫 值 来 选择 的 ,距离 是 通过 常量 的 学 
“J RAB y PREM. 

— PRA RR HK” Cline seareh) 的 优化 方法 采用 了 不 同 的 方法 选择 权 什 更 新 的 距离 。 
确切 地 讲 ,每 当选 定 了 一 条 确定 权 值 更 新 方向 的 路 线 ,那么 权 更 新 的 距离 是 通过 沿 这 条 线 寻找 
误差 洒 数 的 最 小 值 来 选择 的 。 注 意 这 可 能 导致 很 大 幅度 也 可 能 是 很 小 幅度 的 权 值 更 新 ,要 看 
沿 这 条 线 的 最 小 误差 点 的 位 置 。 另 一 种 方法 是 根据 " 线 搜索 "的 思想 建立 的 ,被 称 为 共 顽 梯度 
(conjugate gradient) 法 。 这 种 方法 进行 一 系列 线 搜索 来 搜索 误差 曲面 的 最 小 值 。 这 一 系列 搜 
索 的 第 一 步 仍然 使 用 梯度 的 反方 向 。 在 后 来 的 每 一 步 中 ,选择 使 误差 梯度 分 量 刚 好 为 0 并 保 
持 为 和 的 方向 。 

虽然 其 他 的 误差 最 小 化 方法 提高 了 训练 网 络 的 效率 ,但 像 共 拒 梯度 这 样 的 方法 则 对 最 终 
网 络 的 泛 化 误差 没有 明显 的 影响 。 对 最 终 误 差 惟 一 可 能 的 影响 是 ,不 同 的 误差 最 小 化 过 程 会 
陷 人 不 同 的 局 部 极 小 值 。Bishop(1996) 包 含 了 关于 训练 网 络 的 几 种 参数 优化 方法 的 一 般 性 讨 


论 。 
4.8.3 AHM 


直到 现在 我 们 考虑 的 只 是 有 向 无 环 的 网 络 拓扑 结构 。 递 归 网 络 (Recurrent Networks) 7 
有 如 下 特征 的 人 工 神 经 网 络 ; 适 用 于 时 序数 据 ;使 用 网 络 单元 在 时 间 : 的 输出 作为 其 他 单元 在 
时 间 2 +1 的 输入 。 以 这 种 方式 ,递归 网 络 支 持 在 网 络 中 使 用 某 种 形式 的 有 同 环 (directed cy- 
cle)。 为 了 演示 递归 网 络 , 考 虑 一 个 时 序 预 测 尾 务 一 一 根据 当天 的 经 济 指标 x (1) ,预测 下 一 天 
的 股票 平均 市 值 y(t + 1)。 给 定 了 这 样 的 时 序数 据 ,一 个 显而易见 的 办 法 是 根据 输入 值 x (1) 
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Wile -个 前 侍 了 网 络 预测 输出 yl) 一 个 这 样 的 网 络 显 示 在 图 4-11a 中 。 
这 种 网 络 的 一 个 限制 是 仅 依赖 COTE pean 
出 对 y(t + 1 预测 ,而 不 能 捕 提 y(t + LRT x 
的 以 前 值 的 依赖 性 , 而 这 可 能 是 必需 的 。 例 GAY 
A, BAA ey Ae SOP y BE] BE RE OK YY 
经 济 指标 和 昨天 的 经 济 指标 的 差异 。 当 然 ， x(t) 
我 们 可 以 通过 把 x C2) (2 - 了 1 部 作 为 前 omean 
Tot PO) 2A A Fe A ESR AMA PARA. (ASEM RAR 
HERRAR yl + 1) 时 考虑 任意 过 
去 的 时 间 窗 内 的 信息 呢 ? 那么 就 需要 用 不 同 
的 解决 方案 了 ,图 4-11b 显示 的 递归 网 络 提 
供 了 这 样 一 个 的 解决 方案 。 这 里 我 们 向 隐藏 
屋 吉 了 一 个 新 的 单元 b RBA Boe 
(0). e( i) 的 值 被 定义 为 单元 5 在 时 间 1-1! 
的 值 ;也 就 是 说 ,网 络 在 某 一 个 时 间 步 (time 
step) 的 输入 值 c( 1) 拷贝 自 单元 5 在 前 一 时 ER 
间 步 的 值 。 注 意 ,这 实现 了 一 种 递归 关系 ,其 ne 
中 5 表示 关于 网 络 输 入 的 历史 信息 。 因 为 6 
既 依赖 于 x (1) 又 依赖 于 celt) ,所 以 5 可 能 概 
括 了 沁 前 任意 时 间距 离 的 * 和 值 。 很 多 其 他 的 
网 络 拓扑 也 可 以 用 来 表示 递归 隔 络 。 例 如 ， 











ae eee = 和 Te Hie 0 eff — 2) 
et i 
元 ,也 本 以 在 加 入 蛙 元 单元 c 的 | 
FIFA JLT BSL ens E 


如 何 训练 这 样 的 递归 网 络 呢 ? RU RA eA, A op dR 
方法 (例如 ,参见 Jordan 1986、Eiman 1990, Mozer 1995, Williams & Zipser 1995)、 有 趣 的 是 ， 
(RPS 4-11b 那 样 的 递归 网 络 可 以 使 用 反 向 传播 算法 的 简单 变 体 来 训练 。 为 了 理解 如 何 实施 ， 
图 4-11c 显 示 了 道 归 网 络 按照 时 间 展 开 的 数据 流 。 这 里 我 们 把 递归 网 络 找 贝 成 几 份 ,用 不 同 挡 
中 间 的 连接 蔡 换 掉 反 局 环 。 注 意 ,这 个 大 的 网 络 不 再 包含 回路 。 所 以 展开 网 络 的 权 值 可 以 直 
接 使 用 反 向 传播 算法 来 训练 。 当 然 实践 中 我 们 希望 仪 保留 一 份 递归 网 络 和 权 值 集合 的 拷 由 ， 
所 以 ,在 训 绒 了 展开 的 网 络 后 ,可 以 取 不 同 找 贝 中 权 值 ww 的 平均 值 作为 最 终 网 络 的 对 应 的 权 
值 w;。Mozer(1995) 非 常 详细 地 描述 了 这 个 训练 过 程 。 实 践 中 ,递归 网 络 比 没有 上 反馈 环 的 网 
络 更 难以 训练 , 泛 化 的 可 车 性 也 不 如 后 者 。 然而 它们 仍 四 较 强 的 表征 力 而 保持 者 重 时 性 ， 


4.8.4 动态 修改 网 络 结构 


直到 现在 ,我 们 考虑 的 神经 网 络 学 习 问 题 是 调整 一 个 固定 网 络 结构 中 的 权 什 。 为 了 改善 
活化 精度 和 训练 效率 ,人 们 提出 了 很 多 动态 增长 或 压 编 网络 单元 和 单元 则 连接 数量 的 方法 . 

一 种 想法 是 从 一 个 不 包含 隐藏 单元 的 网 络 开始 ,然后 根据 需要 增加 隐藏 单 元 来 增长 网 络 ， 
要 到 训练 误差 下 降 到 某 个 可 接受 的 水 平 。 级 联 相关 (CASCADE-CORRELATION) 算 法 (Fahiman 
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& Lebiere 1990) 就 是 这 样 一 种 算法。 级 联 相关 算法 从 创建 一 个 没有 隐藏 单元 的 网 络 开始 ， 
例如 ,对 于 我 们 的 人 人 脸 朝 向 的 学 习 任 务 , 它 会 建立 -- 个 仅 包 合 四 个 输出 单元 全 连接 到 30 x 32 
个 输 和 人 结 点 的 网 络 。 在 这 个 网 络 被 训练 了 --: 段 时 间 后 ,我 们 可 以 很 容易 地 发 现 还 有 较 大 的 残 
Wik ,因为 事实 上 这 人 目标 困 数 不 可 能 被 -- 个 单 层 结构 的 岗 络 理想 地 表示 。 在 这 种 情况 下 ， 
算法 增加 一 个 隐 城 单元 ,选择 它 的 权 仁 使 这 个 隐藏 单 元 的 值 和 整个 网 络 的 残留 误差 的 相关 性 
最 大 化 ， 现 在 一 个 新 的 单元 被 在 装 进 了 网 络 , 它 的 权 值 保持 不 变 , 并 且 从 这 个 新 单元 到 每 -- 个 
输出 单元 间 增 加 连接 。 重 复 这 个 过 程 。 原 始 的 权 值 被 再 次 训练 (保持 隐藏 单元 的 权 值 不 变 )， 
PARARE, WRAAE REA TAAMAL AERAN.: 每 当 加 人 一 个 新 的 隐藏 单 
元 , 它 的 输入 包括 所 有 原始 的 网 络 输入 和 已 经 存在 的 隐藏 单 元 的 输出 。 网 络 以 这 种 方式 增长 ， 
积 祭 隐藏 单 光 ,直到 网 络 的 残余 误差 下 降 到 某 个 可 接受 掀 水 平 。Fahlman & Lebieret1990) 报 
告 了 级 联 相关 算法 显著 减少 训练 时 间 的 例子 ,原因 是 每 一 步 仪 有 一 屋 网 络 在 被 训练 。 这 个 算 
法 的 - -个 实际 转 难 是 因为 算法 可 以 无 限制 地 增加 单元 , 它 就 很 容易 过 度 氢 合 训练 数据 ,所 世上 必 
须 采 取 避 全 过 度 拟 合 的 预防 措施 。 

动态 收 改 网 络 结构 的 第 二 个 想法 是 使 用 相反 的 途径 。 不 再 从 可 能 的 最 简单 网 络 开 始 增 加 
Ete ,而 是 从 一 个 复杂 的 网 络 开 始 修 音 掉 某 些 无 关 紧 要 的 连接 。 羯 断 某 个 权 是 天 无 关 紧 赛 
的 一 种 方法 是 看 它 的 值 是否 接 近 0。 第 二 种 看 来 在 实践 中 更 加 成 功 的 方法 是 考虑 这 个 梳 值 的 
-个 小 的 变化 对 误差 E 的 影响 。 变 化 w X E 的 影响 (也 就 是 5 ) 可 以 被 看 作 衡量 这 个 连接 
的 显著 性 (salience) 的 尺度 。LeCun et 引 .(1990) 描 述 了 一 个 网 络 被 训练 的 过 程 ,最 不 显著 的 连 
接 被 拆除 ,重复 这 个 过 程 ,直到 凋 到 革 个 终止 条 件 为 止 。 他 们 称 这 种 方法 为 “最 优 脑 帘 伤 ”(op- 
timal brain damage) 法 ,因为 每 一 步 算法 都 试图 去 除 最 没有 用 的 连接 。 他 们 报告 ,在 一 个 字符 
识别 应 用 中 ,这 种 方法 将 一 个 大 的 网 络 中 权 什 减少 到 四 分 之 一 ,对 江 化 精度 有 微小 的 改善 ,并 
莫大 大 改善 了 后 来 的 训练 效率 ， 

一 般 而 言 ,动态 修改 网 络 结构 的 方法 已 经 取得 了 一 些 成 功 , 但 也 有 不 足 。 这 种 方法 是 否 能 
稳定 地 提高 反 向 传播 算法 的 泛 化 精度 还 有 待 研究 。 然 而 已 经 证 明 在 某 些 情形 下 它 可 以 显著 地 
降低 训练 时 间 。 


4.9 小 结 和 补充 读物 


本 章 的 要 点 包括 : 

© 人 工 神 经 网 络 学 习 为 学 习 实 数值 和 向 量 值 函 数 提供 了 一 种 实际 的 方 靶 ,对 于 连续 的 和 
离散 值 的 属性 都 可 以 使 用 ,并 且 对 训练 数据 中 的 噪声 具有 很 好 的 健壮 性 。 反 向 传播 算 
法 是 最 常见 的 网 络 学 习 算 法 ,这 已 被 成 功 应 用 在 很 多 学 习 任 务 中 ,比如 手写 识别 和 袖 太 
人 控制 。 

e 反 向 传播 算法 考虑 的 假设 空间 是 固定 连接 的 有 权 网 络 所 能 表示 的 所 有 冰 数 的 空间 。 包 
含 三 层 单元 的 前 馈 网 络 能 够 以 任意 精度 下 近 任 意 函 数 , 只 要 每 一 层 有 足够 数量 (可 能 直 
常 多 ) 的 单元 。 即 使 是 一 个 实际 大 小 的 网 络 也 能 够 表示 很 大 范围 的 融 度 非 线 性 的 靖 数 ， 
这 使 得 前 馈 网 络 成 为 学 习 预 先 未 知 的 一 般 形式 的 离散 和 连续 函数 的 很 好 选择 。 

© 反 向 传播 算法 使 用 梯度 下 降 方法 搜索 可 能 假设 的 空 凶 , 选 代 减 小 网 络 的 误差 以 拟 全 六 
练 数据 。 梯 度 下 降 收 钙 到 训练 误差 相对 网 络 权 值 的 局 部 极 小 值 。 通 常 ,梯度 下 降 是 -- 
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种 有 应 用 潜力 的 方法 , 它 可 用 来 搜索 很 多 连续 参数 的 假设 空间 ,中 要 训练 误差 是 假设 参 
数 的 可 微 函 数 。 

8 反 向 传播 算法 最 令 人 感 兴趣 的 特征 之 一 ,是 它 能 够 创造 出 网 络 输入 中 没有 明确 出 现 的 
特征 。 确 切 地 讲 ,多 层 网 络 的 内 部 (隐藏 ) 层 能 够 表示 对 学 习 目 标 函 数 有 用 的 但 隐 含 在 
网 络 输 人 中 的 中 间 特 征 。 这 种 能 力 被 一 些 例子 所 描述 ,如 4.6.4 节 的 8x3x8 网 络 中 
创造 的 数字 1 到 8 的 布尔 编码 ,以 及 4.7 节 人 脸 识 列 应 用 中 隐藏 层 表 示 的 图 像 特 征 。 

e 过 度 拟 合 训练 数据 是 ANN 学 习 中 的 一 个 重要 问题 。 过 度 拟 合 导致 网 络 泛 化 到 新 的 数 

据 时 性 能 很 差 , 尽 管 网 络 对 于 训练 数据 表现 非常 好 。 交 及 验证 方法 可 以 用 来 估计 梯度 
下 降 搜 索 的 合适 终 站 点 ,从 而 最 小 化 过 度 氢 合 的 风险 ， 

e 尽管 反 向 传播 算法 是 最 常见 的 ANN 学 习 算 法 ,人 们 也 提出 很 多 其 他 的 算法 ,包括 对 于 
特殊 任务 的 一 些 算法 。 例 如 ,递归 网 络 方 法 训练 包含 有 向 环 的 网 络 ,类 似 级 联 相关 的 算 
法 改变 权 的 同时 也 改变 了 网 络 结 构 。 

本 书 的 其 他 音节 也 介绍 了 一 些 关 于 ANN 学 习 的 其 他 信息 。 第 5 童 给 出 了 选择 最 小 化 误 
差 平方 和 的 风 叶 斯 论证 ,以 及 在 其 他 情况 下 用 最 小 化 交叉 炉 (eross-entropy) 代 蔡 最 小 化 误差 平 
方 和 的 方法 。 第 7 童 讨论 了 为 可 靠 学 习 布 尔 函 数 所 需要 的 训练 实例 数量 的 理论 结果 ,以 及 某 
些 类 型 网 络 的 Vapnik - Chervonenkis 维 。 关 于 过 度 拟 合 以 及 如 何 避 免 过 度 拟 合 的 讨论 可 以 在 
第 5 音 中 找到 。 第 12 章 讨论 了 使 用 以 前 的 知识 来 提高 滋 化 精度 的 方法 。 

对 人 工 神经 网 络 的 研究 可 以 追溯 到 计算 机 科学 的 早期 ，MeCuloch & Pitts(1943) 提 出 了 
一 个 相当 于 感知 器 的 神经 元 模型 ,20 世纪 60 年 代 他 们 的 大 量 工作 探索 了 这 个 模型 的 很 多 恋 
体 。20 世纪 60 年 代 早期 Widrow & Hoff(1960) 探 索 了 感知 器 网 络 ( 他 们 称 为 ~adelines”) 和 和 
delta 法 则 。 Rosenblatt(1962) 证 明了 感知 器 训练 法 风 的 收 仑 性 。 然 而 ,下 到 20 世纪 60 FACE 
期 ,人 们 才 开 始 清 楚 单 层 的 感知 器 网 络 的 表现 能 力 很 有 限 , 而 且 找 不 到 训练 多 层 网 络 的 有 效 方 
法 。Minsky & Papert(1969) 说 明 即 使 是 像 XOR 这 样 简单 的 函数 也 不 能 用 单 层 的 感知 器 网 络 
表示 或 学 习 , 在 整个 20 世纪 70 年 代 ANN 的 研究 衰退 了 。 

在 20 世纪 80 年 代 中 期 ANN 的 研究 经 历 了 一 次 复兴 ,主要 是 因为 训练 多 层 网 络 的 反 向 
传播 算法 的 发 明 ({Rumelhart & McClelland 1986; Parker 1985)。 这 些 思想 可 以 被 追溯 到 有 有关 
的 早期 研究 (例如 , Werbos 1975)。 自 从 20 世纪 80 年 伐 ,反问 传播 算法 就 成 为 应 用 最 上 证 的 
学 习 方 法 ,而且 人 们 也 积极 探索 出 了 很 多 其 他 的 ANN 方法 。 在 同一 时 期 ,计算 机 变 得 不 脏 吐 
重 , 这 人 允许 人 们 试验 那些 在 20 世纪 560 年 代 不 可 能 被 完全 探索 的 计算 密集 型 的 算法 。 

很 多 教科 书 专 门 论述 了 神经 网 络 学 习 。 一 本 早期 的 但 仍 有 用 的 关于 模式 识别 的 参数 学 习 
方法 的 书 是 Duda & Hart( 1973), Windrow & Stearns( 1985) Harel BA CBA A TAAL 
单 屋 网 络 以 及 它们 的 应 用 。Rumelhart & McClelland( 1986) (4a T 20 世纪 80 年 代 中 期 开始 
的 重新 激发 起 人 们 对 神经 网 络 方法 兴趣 的 论文 。 关 于 神经 网 络 最 近 出 版 的 书籍 包括 Bishop 
(1996) .Chauvin & Rumelhart(1995), Freeman & Skapina( 1991), Ful 1994} , Hecht - Nielson 
(4990) 41 Hertz et al. (1991), 


习题 


4.1 对 图 4-3 画 出 的 误差 曲面 ,感知 器 的 权 wo, w 和 ua 的 值 是 什么 ? MER RA t ár 
5 Xi oh HAAS TE 4, 一 一 1 ,并 与 X94 ih FA RE TE X3= Ze 
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4.7 


4.3 


4.9 


PAP ALi EM 9] 
it- -f FRSA Re Ee ES fo AA 4 A OB, Rit- PRR a RA EE 
Bap AK PARK 4 XOR B, | 
考虑 使 用 国 值 表达 式 wot wirit wor, > OE MIN PR ALRE. RAISE 4 的 权 信 为 : 
woz l,w,=2,w¢w2=1 
感知 器 B 的 权 值 为 : 
wgo=O,w),)=2.¢2=1 

请 判断 以 下 表达 对 或 错 。 感 知 器 A 是 more _ general _ than 感知 器 B 的 ( more _ general 
_ than Æ 2 AHE) 
实现 一 个 两 输入 线性 单元 的 delta HREN. MAERA BR - 24 t2 > 
0, BER E 相对 训练 迁 代 次 数 的 函数 曲线 。 画 出 5,10,50,100,…… 次 迭代 后 的 决 
FH 
(a) Ay BEAR ALA AS BL, FE A SB ER i KERE fori, 
骨 进 行 试验 。 哪 一 个 效果 重 好 ? 
(b) 试验 增 量 (ineremental) 和 批量 (bateh) 学 习 。 哪 个 收 人 证 得 更 快 ? AA BK 
和 总 执行 时 间 。 
推导 输出 为 o 的 单个 单元 的 梯度 下 降 训练 法 则 ,其 中 ， 

o= Wp + wxj + wx? tot W yt, t iw 
简略 解释 为 什么 公式 {4.10) 中 的 delta 法 则 仅 是 公式 (4.7) 表 示 的 真正 梯度 下 降 法 则 的 
近似 ? 
考虑 一 个 两 层 的 前 馈 ANN, 它 具有 两 个 输入 a 和 ,一 个 幅 藏 单元 c, 和 …- 个 输出 单元 
d。 这 个 网 络 有 五 个 权 值 (ws, Was Wes Was Wa) ;其 中 wot BL x WAAR. FC 
把 这 些 权 的 值 初始 化 为 (0.1,0.1,0.1,0.1.0.1), 然 后 给 出 使 用 反 向 传播 算法 训练 这 个 
网 络 的 前 两 次 选 代 中 每 一 次 这 些 权 值 的 值 。 假 定 学 习 速 率 7 =0.3, 冲 量 a = 0.9, 采 用 
增 量 的 权 值 更 新 和 以 下 训练 样 例 : 


a b d 
1 0 1 
0 l 0 


收 改 表 4-2 中 的 反 向 传播 算法 ,使 用 双 曲 正切 tanh RACAL sigmoid HRUE A PrE eK 
数 ， 也 就 是 说 ,假定 单个 单元 的 输出 是 o = tanh(w -x)。 给 出 输出 层 权 值 和 隐藏 层 权 值 
KOREN, HER: tanh’ (x) =1~ tanhl x). 

回忆 图 4-7 描述 的 8x3x8 网 络 。 考 虑 训练 一 个 8 x 1 x 8 的 网 络 来 完成 同样 的 任务 ,也 
就 是 仅 有 一 个 隐藏 单元 的 网 络 。 注 意 ,图 4-7 中 的 8 个 训练 样 例 可 以 被 表示 为 单个 隐藏 
单元 的 8 个 不 同 的 值 (例如 0.1,0.2,…… ,0.8)。 那 么 公有 一 个 隐藏 单元 的 网 络 能 够 根 
据 这 些 训 练 样 例 学 习 异 等 函数 吗 ? 提示: 考 走 类 似 这 样 的 问题 “是 否 存在 这 样 的 隐藏 单 
元 权 值 ,能 产生 上 面 建议 的 隐藏 单元 编码 ?"“ 是 否 存在 这 样 的 输出 单元 权利 ,能 正确 解 
码 这 样 的 输入 编码 ?” 和 “梯度 下 降 搜索 可 能 发 现 这 畔 的 权 值 吗 ?”。 


4.10 考虑 第 4.8.1 节 中 描述 的 另 一 种 误差 咕 数 : 
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为 这 个 误差 E RES BRE FRERE TTA Ul), 证 明 这 个 权 值 更 新 法 则 的 实现 可 通过 在 
进行 表 4-2 的 标准 梯度 下 降 权 蝎 新 前 把 每 个 权 值 磁 以 一 个 常数 。 

4.11 WAR RRR MAR ASS. BRAT http: //www.es.cmu.eda/ ~ 
tom/book .html 来 获得 细节 ,包括 人 脸 图 像 数据 , 反 回 传播 程序 源 代码 和 具体 的 任务 . 

4.12 推 革 出 学 习 x, y 平面 上 的 矩形 这 一 目标 概念 的 梯度 下 降 算法 。 使 用 *,， 的 坐标 描述 
每 一 个 假设 ENA PARAM EA ARH He, lly, ure 和 ury 实例 (x ,1y) 被 假 
be (dix, Hy ,urx ,ury? 标 人 记 为 正 例 的 充 要 条 件 是 点 4x,y? 位 于 对 应 的 矩形 内 部 。 按 本 
章 中 的 办 法 定义 误差 E。 试 设计 ~… 个 梯度 下 降 算 法 来 学 习 这 样 的 矩形 假设 。 注 意 误 苦 
不 是 Hx Uy ure 各 ury 的 连续 图 笋 ,这 5 感知 器 学 习 的 情况 一 样 (提示 : 考虑 感知 
器 中 使 用 的 两 个 解决 办 法 :《〈1) 改 变 分 类 法 则 来 使 输出 预测 成 为 输入 的 连续 吸 数 ;(2) 
另外 定义 一 个 误差 一 一 比如 到 御 形 中 心 的 距离 一 一 就 像 训练 感知 器 的 delta EM). 
正 例 和 反例 可 被 矩形 分 割 时 ,设计 的 算法 会 收 但 到 最 小 误差 假 设 吗 ”和 何 时 不 会 ? 该 算 
法 有 局 部 极 小 值 的 问题 吗 ? 该 算法 与 学 习 特 征 约束 合 取 的 符号 方法 相 比 如 何 ? 
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第 5 章 评估 假设 


对 假设 的 精度 进行 经 验 评估 是 机 器 学 习 中 的 基本 问题 。 本 章 介绍 了 用 统计 方法 估计 假发 
精度 , 主要 为 解决 以 下 三 个 问题 ;首先 ,已 知 -个 假设 在 有 限 数据 样本 上 观察 到 的 精度 ,怎样 信 
计 它 在 其 他 实例 上 的 精度 ? 其 次 ,如 果 一 个 假设 在 某 些 数据 样本 上 好 于 另 一 个 ,那么 一 般 情 光 
下 该 假设 是 否 更 准确 ? 第 三 , 当 数 据 有 限时 ,怎样 高 效 地 利用 这 些 数 据 ,通过 它们 既 能 学 怀 到 
假设 ,还 能 估计 其 精度 ?由 于 有 限 的 数据 样本 可 能 不 代表 数据 的 一 般 分 布 ,所 以 从 这 些 数据 上 
估计 出 的 假设 精度 可 能 有 误差 。 统 计 的 方法 ,结合 有 关 数 据 基 准 分 布 的 假定 ,使 我 们 中 以 用 有 
限 数据 样本 上 的 观察 精度 来 逼近 整个 数据 分 布 上 的 只 实 精度 。 


5.1 动机 


多 数 情况 下 ,对 学 习 到 的 假设 进行 尽 可 能 准确 的 性 能 评估 十 分 重要 。 藉 因 之 一 很 简单 ,是 
为 了 德 道 是 否 可 以 使 用 该 假设 。 例 如 ,从 一 个 长 度 有 限 的 数据 库 中 学 习 以 了 解 相同 医疗 手段 
的 效果 ,就 有 必要 尽 可 能 准确 地 知道 学 习 结 果 的 正确 性 。 另 一 原因 在 于 ,对 假设 的 评估 是 许多 
学 习 方 法 的 重要 组 成 部 分 。 例 如 在 决策 树 学 习 中 ,为 避免 过 度 拟 合 问 题 必须 进行 后 修剪. 这 时 
我 们 必须 评估 每 一 步 修 前 对 树 的 精度 产生 的 影响 。 因 此 ,有 必要 了 解 已 修剪 和 未 修剪 树 的 精 
度 居 计 中 国有 的 误差 。 
当 数 据 十 分 充足 时 ,假设 精度 的 估计 相对 容易 。 然 而 当 给 定 的 数据 集 非常 有 限时 ,要 学 习 
一 个 概念 并 估计 其 将 来 的 精度 ,存在 两 个 很 关键 的 困难 : 
@ (sit 844% Æ (Bias in the estimate) 首先 ,学习 到 的 概念 在 训练 样 例 上 的 观察 精度 通 浓 
不 能 很 好 地 用 于 估计 在 将 来 样 例 上 的 精度 。 因 为 假设 是 从 这 些 样 例 中 得 出 的 ,因此 对 
将 来 样 例 的 精度 估计 通常 偏 于 乐观 。 尤 其 在 学 习 器 采用 了 很 大 的 假设 空间 并 过 度 拟 全 
训练 样 例 时 ,这 一 情况 就 更 可 能 出 现 。 要 对 将 来 的 精度 进行 无 偏 估计 ,上 典型 的 方法 是 先 
择 与 训练 样 例 和 假设 无 关 的 测试 样 例 , 并 在 这 个 样 例 集合 上 测试 假 议 - 

e 估计 的 方差 (Variance in the estimate) 其 次 ,即使 假设 精度 在 独立 的 无 偏 测试 样 例 上 
测量 ,得 到 的 精度 仍 可 能 与 丰 实 精度 不 同 , 这 取决 于 特定 测试 样 例 集合 的 组 成 。 测 试 样 
例 越 少 ,产生 的 方差 越 大 。 

本 音 讨 论 了 对 学 到 的 假设 的 评估 ,对 两 个 假设 精度 的 比较 和 在 有 限 的 数据 样本 情况 下 两 
个 学 习 竺 法 精度 的 比较 ,其 中 的 讨论 多 数 集中 在 统计 和 采样 理论 的 基本 定律 。 ARBER A 
PETE EA BA, TH A RS YE AR A 此 本 章 提 供 了 介绍 性 
的 综述 ,集中 讨论 那些 与 假设 的 学 习 、 评 佑 和 比较 相关 的 问题 。 


5.2 估计 假设 精度 
在 评估 一 个 假设 时 ,我 们 一 般 对 估计 这 个 假设 对 未 来 实例 的 分 类 的 精度 更 感 兴趣 。 HEF, 
也 需要 知道 这 一 精度 估计 中 的 可 能 的 误差 ( 即 与 此 估计 相 联 系 的 误差 门限 )。 
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本 草 使 用 的 学 习 问 题 的 框架 如 下 。 有 一 上 所 有 可 能 实例 的 空间 X( 如 所 有 人 的 集合 ), E 
© MST BT A twa, TRAE eR A) RIRE 不 中 不 同 实 例 具 有 相同 的 出 
现 频率 ,对 此 ,一 种 合适 的 建 模 方式 是 ,假定 存在 一 林 知 的 概率 分 布 EENT XPE 
例 出 现 的 概率 (如 ,19 岁 的 人 的 概率 比 109 岁 的 人 的 概率 高 )。 注 意 多 并 没有 说 明 x 是 -一 正 例 
还 是 -反例 ,只 确定 了 其 出 现 概率 。 学 习 任 务 是 在 假设 空间 A RFU PARSE oR 
函数 )f， 日 标 耳 数 了 的 训练 样 例 由 施 教 者 提供 给 学 习 髓 :每 一 个 实例 按照 分 布 肥 被 独立 地 抽 
取 , 然 后 它 连 同 其 正确 的 目标 和 值 f(x ) 被 提供 给 学 习 髓 。 

为 说 明 这 一 点 ,考虑 目标 范 数 “计划 本 年 购买 滑雪 板 者 " ,让 以 调查 去 滑雪 松 商店 的 顾客 ， 
通过 此 调查 来 收集 训练 样 例 。 在 这 里 实例 空间 XY 为 所 有 人 组 成 的 集合 ,每 个 实例 可 由 人 的 各 
种 属性 描述 ,如 年 龄 .职业 ,每 年 滑雪 次 数 等 。 分布 情况 多 指定 了 在 滑雪 板 商 店 中 过 到 每 个 人 
HRE. HERR fp: XO ETAT SR ,判断 它 是 理会 在 本 年 内 购买 滑雪 板 ， 

在 这 个 一 般 的 框架 中 ,我 们 感 兴趣 的 是 以 下 两 个 问题 . 

1) 给 定 假 设 A MASA TIE 多 分 布 随机 抽取 的 样 例 的 数据 集 ,如 何 针对 将 来 按 同 样 分 布 

抽取 的 实例 ,得 到 对 的 精度 的 最 好 估计 。 

2) 这 一 精度 居 计 的 可 能 的 误差 是 多 少 ? 


5.2.1 样本 错误 率 和 真实 错误 率 


为 解决 上 述 的 两 个 问题 ,需要 确切 地 区 分 出 两 种 精度 (或 两 种 错误 率 )。 其 一 是 可 用 数据 
样本 上 该 假设 的 错误 率 。 其 二 是 在 分 布 为 久 的 整个 实例 集合 上 该 假设 的 错误 率 。 它 们 分 别 
被 称 为 样本 错误 率 和 走 实 错误 率 。 

对 于 从 于 中 抽取 的 样本 5, 茶 假设 关于 S$ 的 样本 销 误 率 (sample error) EBRR IRIA 
的 实例 在 $ 中 所 占 的 比例 ; 


定 兴 :假设 靖 关 于 目标 函数 上 和 数据 样本 S 的 样本 错误 率 { 标 记 为 errors hA: 
errors(h) = f(a) Aa) 

Sh, n 为 $ 中 样 例 的 数量 ,而 8( f(x) .h(x)) 在 f(x) 天 h(x) 时 为 1, 否则 为 0。 

真实 错误 率 (true error) 是 对 于 按 多 分 布 随机 抽取 的 实例 ,该 假设 对 它 错误 分 类 的 概率 。 


定义 :假设 不 关于 目标 函数 /和 分 布 SHAR error Ahm). AARYDD 
随机 抽取 实例 被 误 分 类 的 概率 ; 
errorkh) = Pri flats hCx)] 


这 里 ,记号 Pr 表示 概率 在 实例 分 布 ZEHK. 


我 们 通常 想 知道 的 是 假设 的 真实 错误 率 errorg 民 户 ) ,因为 这 是 在 分 类 未 来 样 例 时 可 以 预料 到 
的 错误 。 然 而 我 们 所 能 测量 的 只 是 样本 错误 率 errors( 庆 ) . 它 所 要 求 的 数据 样本 S 是 我 们 所 拥有 
的 ， 本 节 所 要 考虑 的 主要 问题 就 是 "errors() 在 何 种 程度 上 提供 了 对 error h) BARIT?” 


5.2.2 WEARS Bes E 
为 解决 “errorsf 在 何 种 程度 上 提供 了 对 error fh) 的 估计 "的 问题 , 先 考虑 h 为 离散 值 
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假设 的 情况 。 其 体 地 说 ,比如 我 们 要 基于 某 离散 值 假 设 h 在 样本 5 上 观察 到 的 样本 错误 率 佑 
eA S 包含 = 个 样 例 ,它们 的 抽取 按照 概率 分 布 2, 抽取 过 程 是 相互 独立 的 ,并 且 不 依 
HiT k 
@ n> 30 
@ 假设 h Ei n TERLI r 个 错误 (例如 ,errors(h}= r/n) 
已 知 这 些 条 件 ,统计 理论 可 给 出 以 下 断言: 
1) RA ARAMA, error, (A) BRAT AEREA errers( A) 
2) 有 大 约 95% 的 可 能 性 ,真实 错误 率 errors (8) 处 于 下 面 的 区 闻 内 : 


FC 


errors(h) + 1-964] errors( RIM errors] h)) 


举例 说 明 ,假如 数据 样本 S 包含 n= 和 个 样 例 ,并 且 假 设 产 在 这 些 数据 上 产生 了 r=12 
个 错误 。 这 样 , 样 本 错误 率 为 errors(h) = 12740 = 0.30。 如 果 没 有 更 多 的 信息 ,对 真实 错误 
率 error, (也) 的 最 好 的 估计 即 为 样本 错误 率 0.30。 然 而 我 们 不 能 期 望 这 是 对 真实 错误 率 的 
完美 佑 计 。 如 果 另 外 搜集 40 个 随机 抽取 的 样 例 OS” ,样本 错误 率 errors.th) 将 与 原来 的 errors 
( 几 ) 存 在 一 些 善 踢 。 这 种 差别 是 由 SAS 组 成 上 的 随机 差异 所 产生 的 。 实 际 上 MRA 
复 这 一 实验 ,每 次 抽取 一 个 包含 40 样 例 的 样本 5,, 将 会 发 现 约 95 色 的 实验 中 计算 所 得 的 区 间 
包含 真实 错误 率 。 因 此 ,我 们 将 此 区 间 称 为 error.s (A) 1) 95% BR Reet. TERR, = 
12 Aln = 40, REER, 95% BRR A OO. 30+ (1.96 x 0.07) =0.3040.14, 

上 面 的 站台 置 依 区 间 表 达 式 可 推广 到 一 般 情形 以 计算 任意 兽 信 和 度 。 和 常数 1.96 是 由 95% 
i<-- BRE. EX zw 为 计算 NG He EX LAT BY Bt BX O 计算 errors (Ch) HL N% ee dy Xx 
问 的 一 般 表 达 式 为 ; 

[errors(h) (1 ~ errors(h)) 


errors(h) + ZNA (5.1) 


其 中 ,zw AE TE, SILE 5-1 中 的 取 值 。 


表 5-1 Wea Nw 置信 区 间 的 zy 值 


RAE N% 50% 68% 80% 90% 95% 98% 99% 
常量 zx 0.67 1.00 1,28 1.64 1.96 2.33 2.58 


因此 ,正如 errora (h) HI 95% Eta XW 0.30 + (1.96 x 0.07) (HP r= 12, n = 40), AT 
以 求 得 同样 情况 下 68% BAA EI 0.304 {1.0x0.07)。 从 直觉 上 我 们 也 可 以 看 出 68% E 
信 区 间 要 小 于 双 久 置信 区 间 ,因为 我 们 减 小 了 要 求 errore (上 ) 落 入 此 区 间 的 概率 。 

ARG. DAE T A T E errors( hb) SER ERIT errors (h) ,如 本 计算 置信 区 间 { 即 误差 门 
限 )。 这 一 表达 式 只 能 应 用 于 离散 值 根 设 。 它 恨 定 样本 $ 抽取 的 分 布 与 将 来 的 数据 抽取 的 分 
布 相同 ,并 且 假 定数 据 不 依赖 于 所 测 式 的 假设 。 还 有 ,该 表达 式 只 提供 了 近似 的 置 指 区 间 ,不 
过 这 一 近似 在 至 少 包 会 30 个 样 例 并 且 errors( 瑚 ) 不 太 靠近 0 或 1 时 很 接近 真实 情况 。 判 断 这 
种 近似 是 否 接 近 真 实 ,更 精确 的 规则 为 ; 

nerrors(h)(| - errors(h)} a5 


上 面 我 们 概述 了 计算 离散 值 假 设 的 置信 区 间 的 过 程 ,下 一 节 将 给 出 这 一 过 程 的 统计 学 基 
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5.3 采样 理论 基础 


本 节 介 绍 耻 统计 学 和 采样 理论 的 儿 个 基本 概念 ,包括 概 亨 分 布 ,期望值 .方差 .二 项 分 布 和 
止 态 分 布 . 双 侧 和 单 侧 区 间 :， 对 于 这 些 概念 的 基本 了 解 将 有 有 助 于 理解 假设 评估 和 算法 评 佑 。 
时 为 重要 的 是 ,它们 提供 了 一 种 重要 的 概念 框 染 , 以 便于 理解 相关 的 机 器 学 习 问 题 (如 过 度 拟 
合 问 题 ) 以 及 理解 在 成 功 的 泛 化 和 训练 样 例 数目 之 间 的 关系 , 已 经 熟悉 这 些 概念 的 读者 可 以 
Bhat a, FPS a REARS Te He 5-2 中 列 出 : 

5-2 统计 学 中 的 基本 定义 和 概念 


随机 变量 ! random variable) BRA TERMS. CHAE RHR 

某 随机 变量 了 HER Hi probability dhstribution) 指 定 了 取 值 为 任 -可 能 的 值 y 的 可 能 性 Pri Y = y) 
随机 变量 了 ANA expected value) 或 均值 {meam) 为 三 了 = 2 y Prt = yp) ARH ay EER ELY. 
MILIA Variance) 4 Varl Y)= ELF eppi EWT 了 基于 其 均值 分 布 的 宽度 或 分 散 度 
y 的 标准 瘟 { Standard deviation) Hy Vari Y) ARBRE sy 来 表示 

1 3 Fi ( Binomial distribution) EE RRE F. eGR ERA EA p ,那么 在 n Pb RH d 
Sly 次 正面 的 分 布 情 虎 

正 态 分 布 ( Normal distribution) E — TAHERE iii. EEIT E A RAR FAS HR 

申 心 极限 定理 {Centra Limit Theorem HRE Hh a LCR E E E a 

fit B( estimator) A — AALE Y ERREI TREGEN- p 

7 PIEH AE (estimation hias} 作 为 p 的 居 计 重臣 (CE. 了] - p).. Tiefi it eee A 0 

N 9p EW E A ( confidence interva) 用 于 估计 和 参数 p Bhs p 的 概率 为 Np 


5.3.1 MRR At Mt HAT 


ey: AS AE UR A ES REZ |] Oe SEAS AD RA Hi? KET 
学 中 已 被 透彻 研究 ,， 它 可 表述 为 :给 定 一 总 体 中 随机 抽取 的 部 分 样本 的 其 属性 的 观察 频率 , 信 
计 整 体 的 该 属性 的 概率 。 在 这 里 ,我 们 感 兴 趣 的 观察 量 为 上 是 否 误 分 类 样 例 。 

解决 该 问题 普 先 要 注意 到 ,测量 样本 错误 率 相 当 于 在 作 一 个 有 随机 输出 的 实验 。 我 们 先 
从 分 布 依 中 随机 抽取 出 n 个 独立 的 实例 ,形成 样本 5, 然后 浏 量 样本 错误 率 errors h), 40B] 
一 节 所 述 ,如 果 将 实验 重复 多 次 ,每 次 抽取 大 小 为 n 的 不 同 的 样本 8;, 将 可 以 得 到 椒 同 的 
errors Ch) AME, ERRATA S: 的 组 成 中 的 随机 差异 。 这 种 情况 下 ,第 i 个 这 样 的 实 蛤 的 输 
出 errors ( 上 ) 被 称 汶 一 随机 变量 (random variable). 一 般 情 况 下 ,可 以 将 随机 蛮 量 看 成 一 个 有 
随机 和 输出 的 实验 。 随 机 变量 值 即 为 随机 实验 的 观察 输出 。 

设想 要 运行 个 这 样 的 随机 实验 ,测量 随机 变量 errors h) ,errorsa( h} errorg( h)a 
然后 我 们 以 图 表 的 形式 显示 出 观察 到 的 每 个 错误 率 值 的 频 座 。 当 不断 增长 ,该 图 表 将 哇 现 
如 表 5-3 所 显示 的 分 布 。 该 表 描 述 的 概率 分 布 称 为 二 项 分 布 (Binomial distribution). 
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表 5-3 二 项 分 布 


u—40, P03 tet AG a a 





Ptr} 


一 个 二 项 分 布 (Binomtal distribution) te i f 444 aE BB BE SR p 时 ,在 ”个 独立 硬币 投 捕 的 

ERRER S CORRS. Eh LA eR eX 
| 
PU ae ee 

旭 果 随机 变 基 让 遵循 项 分 布 , 则 : 

@ i Reig HRE Pri Y= rh Por ih 

e y HM BiAME ELY K: 

EX zap 
@X WAS vari XA; 
Fari Yij=npil— p) 
OY Hite Ao, 为 : 
ayz apll—p) 

t PP BAR n fA. AR Ea PA LE A SE A Ce 5-4), ST BI A 

apil- pz 时 使 用 正 态 分 布 来 近似 - -项 分 布 


5.3.2 二 项 分 布 


为 较 好 地 理解 二 项 分 布 ,考虑 以 下 的 问题 .有 一 磨损 并 弯 则 了 的 硬币 ,要 估计 在 抛 硬币 时 出 
现 正面 的 概率 。 仿 此 未 知 概率 为 p ,投掷 该 硬币 5 次 并 计算 出 现 正面 的 次 数 r。 对 于 pp 的 一 分 
理 的 估计 为 r/n。 注 意 ,如 果 重 新 进行 -次 该 实验 ,生成 一 个 新 的 n 次 抛 硬币 的 集合 ,其 出 现 十 
而 次 数 + 将 与 第 一 次 实验 有 稍 许 不 同 ,从 而 得 到 对 p 的 另 一 个 估计 。 二 项 分 布 描述 的 是 对 任 - 
盯 能 的 > 值 ( 从 0 到 ma), 这 个 正面 概率 为 p 的 硬币 抛掷 次 恰好 出 现 r 次 正面 的 概率 。 

有 趣 的 是 ,从 抛掷 硬币 的 随机 样本 中 估计 p 与 在 实例 的 随机 样本 上 测试 以 合计 
error A ARAM, KEM SPR PSF ia EER h RD 
X, -KRETALE iH BIL TE TAS BE p 对 应 于 随机 抽取 的 实例 被 误 分 类 的 概率 { 即 p 对 应 
errora h))a n KARRERA? 次 正面 ,对 应 n 个 抽取 的 实例 被 误 分 类 的 数目 。 因 此 ， 
r/nXtWerrors(h)o TH p 的 问题 等 效 于 估计 errorx Ri)。 二 项 分 布 给 出 了 一 个 -- 般 撒 式 的 
概率 分 布 ,无 论 用 于 表示 n 次 硬币 出 现 正面 的 次 数 还 是 在 mn PRP RRR. -A 
分 布 的 具体 形式 依赖 于 样本 大 小 rn 以 及 概率 pp error fA) o 

一 般 来 说 应 用 二 项 分 布 的 条 件 包括 : 

1) 有 一 基本 实验 (如 投掷 硬币 ) ,其 输出 可 被 描述 为 一 随机 变量 了 Y。 随 机 变量 Y Ae 

取 值 (如 了 = 1 XEK, Y =0 RE). ‘ 
2) 在 实验 的 任 -一 次 尝试 中 了 = 1 的 概率 为 常数 p。 它 与 其 他 的 实验 尝试 无 关 。 内 此 了 
-0 概率 为 1- po — p 为 预先 未 知 的 ,面临 的 问题 就 在 于 如 何 估计 它 。 
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3) 基本 实验 的 n 次 独立 尝试 按 序 列 执行 , 牛 成 一 个 独立 同 分 布 的 随机 变量 序列 Yi, Yas 
ee Yn oR hte 次 试验 中 出 现 了 ;= 1 的 次 数 : 
tay, 
4) 随机 变量 R BSE r 的 概率 (如 观察 到 r 次 正面 的 概率 ) 由 二 项 分 布 给 出 : 
Pr(R =r) = yp pt (5.2) 
此 概率 分 布 的 一 个 图 表 由 表 5-3 给 出 。 


一 项 分 布 刻 画 了 n 次 硬币 投掷 出 现 r 次 正 协 的 概率 ,也 刻画 了 包含 a 个 随机 样 例 的 数据 
样本 出 现 r 次 误 分 类 错误 的 概率 。 


5.3.3 均值 和 方差 
随机 变量 的 两 个 最 常用 到 的 属性 为 其 期 望 值 (也 称 为 均值 ) 和 方差 。 期 望 值 是 重复 采样 随 
机 变量 得 到 的 值 的 平均 。 更 精确 的 定义 如 下 : 
定义 :考虑 随机 变量 了 可 能 的 取 值 为 y;.. .y,,Y 的 期 望 值 (expected value) EL Yj 为 : 
ELY] = È iPr Pegs (5.3) 


例如 ,如 果 了 取 值 1 的 概率 为 0.7, 取 值 2 的 概率 0.3, 那 么 期 望 值 为 (1x0.7+2x0.3= 
1.3)。 如 果 和 随机 变量 了 服从 二 项 分 布 ,那么 可 得 : 
ELY |= np (5.4) 
HH on Mp 为 公式 (5.2) 中 定义 的 二 项 分 布 的 参数 。 
另 一 重要 属性 方差 描述 的 是 概率 分 布 的 宽度 或 散 度 , 即 它 措 述 了 随机 变量 与 其 均值 之 间 
的 差 有 多大 。 
定义 :随机 变量 了 HHE (variance) Varl 了 | 为; 
Varl Y j= EI(Y- ELY])*] (5.5) 
方差 措 述 的 是 从 了 H-UR ETES EL 了 ] 的 误差 平方 的 期 望 。 方 差 的 平方 根 
被 称 为 了 HARE I oy. 


定 交 :随机 变量 了 RRE (standard deviationjay A: 
oyav EL(Y -EL Y]Y] (5.6) 


若 随 机 变量 了 服从 二 项 分 布 , 则 方差 和 标准 差分 别 为 : 
Var[ Yj=np(l-p) 
or = np(1- p) (5.7) 


5.3.4 titi MEMS 


我 们 已 得 出 随机 变量 errors h) FRA , BUTE SUR eB: errors AAR 
iB errory (上 上) 之 间 可 能 的 差异 是 多 少 ? 
用 式 (5.2) 中 定义 二 项 分 布 的 术语 来 描述 errors(h) FO errora h), UF: 
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BIS FAAK 10] 


ee Ss Se oS SS Se a a e jR 


errors h) = = 


error-Ah) = p 
其 中 ,= 为 样本 S 中 实例 数 ,r 是 S PRA TRH SE AR, p 为 从 多 中 抽取 一 实例 被 误 
PREBBLE 
统计 学 中 将 errors A) PRA RAG error hR — MATE (estimator). HH iit 
革 吓 用 来 估计 某 基 本 总 体 的 某 一 参数 的 随机 变量 。 对 于 和 估计 量 , 显 然 最 关心 的 是 它 平均 来 说 
旦 省 能 产生 正确 估计 。 下 面 我 们 定义 信 计 偏差 (estimation bias) 作 为 居 计 量 的 期 望 值 同 真实 
参数 值 之 间 的 差异 。 
定义 :针对 任意 参数 p 的 估计 量 了 的 估计 偏差 为 : 
E| Y]-p 


MRTA OO, RIER 了 为 p 的 无 偏 估计 量 (unbiased estimator)。 注 意 ,在 此 情况 下 
由 多 次 重复 实验 生成 的 了 的 多 个 随机 值 的 平均 ( 即 ELY ERATE po 

errorst 上 是 示 为 error 吕 站) 的 一 个 无 帆 依 计量 ?确实 如 此 ,因为 对 于 二 项 分 布 , r 的 期 望 
但 为 np (公式 [5.4])。 由 此 ,并 有 目 因 为 n 为 一 常数 ,那么 r/n 的 期 望 值 为 p。 

对 估计 偏差 还 需要 作 丙 点 说 明 。 首 先 ,在 本 章 开始 我 们 提 到 ,在 训练 样 例 上 测试 假说 得 到 的 
对 假设 错误 率 的 怖 计 仿 于 乐观 化 ,所 指 的 正 是 估计 偏差 。 要 使 errors{ 对 error h) Ate taif 
假设 A 和 和 样本 5 必须 独立 选取 。 第 二 ,人 导 计 偏差 (estimation hias) 这 一 概念 不 能 与 第 2 章 介绍 的 
学 习 秀 的 归纳 偏 置 (inductive bias) 相 混 请 。 估 计 侦 差 为 一 数字 量 , 而 归纳 偏 置 为 一 个 断言 集合 - 

佑 计量 的 另 一 重要 属性 是 它 的 方差 。 给 定 多 个 翅 仿 估计 量 , 直观 上 应 选取 其 中 方差 最 小 
和 的。 由 方差 的 定义 ,所 选择 的 应 为 参数 值 和 估计 和 值 之 间 期 望 平方 误差 最 小 的 ， 

假如 在 测试 RR, EX n = 和 个 随机 样 例 的 样本 产生 rr = 12 个 错误 ,那么 对 
error od h RIAIT errors h) = r/n =0.3。 估计 中 产生 的 方差 完全 来 源 于 r 中 的 方差 ， 
因为 n ABS. AF r 是 二 项 分 布 , 它 的 方差 由 式 (5.7) 得 np(1 一 p)。 然 而 p 未 知 ,我 们 
可 以 用 估计 量 rn 来 代替 mp。 由 此 得 出 r 的 的 佑 计 方 差 为 40x0.3(1-0.3) =8.4, 或 相应 的 
标准 差 v 8.4-:2.9。 这 表示 errorsth)}= rz 中 的 标准 差 约 为 2.9740 = 0.07 总 而 言 之 ,观察 
到 的 errors(h)N 0.3, #REBA A 0.07 MM 5.1), 

一 般 来 说 , 知 在 n 个 随机 选取 的 样本 中 有 r 个 错误 ,errors(8) 的 标准 差 为 ; 


T, 
Germ th = = | p(t — p) (5.8) 
rt 


它 约 等 于 用 r/n = errors hX RE p: 


| 2 (5.9) 
5.3.5 置信 区 间 


通常 描述 某 倍 计 的 不 确定 性 的 方法 是 使 用 置信 区 间 , 真 实 的 值 以 一 定 的 概率 落 人 该 区 间 
中 。 这 样 的 估计 称 为 置信 和 区间 (confidence interval) {Ait 
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定义 : 某 个 参数 p 的 六 多 置信 区 间 是 - -AUA No RREA p 的 区 间 。 


例如 ,如 果 在 xn =40 个 独立 抽取 的 样 例 的 样 下 中 有 r= 12 个 错误 ,可以 称 区 间 0.3+0.14 
有 9S 狗 的 可 能 性 包含 真实 错误 率 errory h) « 

如 何 获得 error sx AW RB? 答案 在 十 佑 计量 errors (8) 服 从 二 项 分 布 。 这 一 分 布 
的 均值 为 errora h) ,标准 差 可 由 式 (5.9) 计 算 。 因此 ,为 计算 9$ 和 置信 区 间 ,只 需要 找到 一 个 
以 均值 errors( 衣 为 中 心 的 民间 , 它 的 现 度 足以 包含 该 分 布下 全 部 概率 的 95%. HET — 
个 包围 error 以 如 ) 的 区 间 ,使 errors (有) 必定 有 95 免 的 机 会 落 入 其 中 。 同 样 , 它 也 指定 了 er- 
ror h) A 95% HLA GLB errors (AMIRI AZ). 

ot PERSE) N E, TR RADA NG 的 概率 质量 ? 对 于 一 项 分 布 来 说 这 
一 计算 十 分 烦 吏 。 然 而 多 数 情 况 下 可 以 找到 -一 近 位 ,使 计算 过 程 更 容易 。 这 基于 如 王 事 实 : 即 
对 于 足够 大 的 样本 ,二 项 分 布 可 以 很 好 地 由 正 态 分 布 来 近似 。 正 态 分 布 (在 表 5-4 中 概述 ) 是 
统计 学 中 研究 得 最 透彻 的 概率 分 布 之 -…， 如 表 5-4 所 示 , 正 态 分 布 是 一 钟 形 分 布 ,由 其 均值 x 
和 标准 差 o 完全 定义 。 对 于 大 的 n, 二 项 分 布 非 常 近似 于 一 -个 间 样 均值 和 方差 的 正 态 分 布 。 


表 54 EAM th 


均值 为 .标准 莽 为 1 的 正 态 分 布 


-3 2 -1 0 I 2 3 
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l EN 





pis m 

一 个 正太 分 布 由 上 面 公式 中 的 两 个 参数 完全 确定 :w Ae 
如 果 随 机 变量 X MERI, M: 
è XRAB (a, DRWA: 

er" 
o {HMMS ARAB EX: 

a 
® 大 的 方差 Var( XA: 

Fari X) = a 
@ X HEB Ho, 为 ， 

ar=o 


中 心 极限 定理 (第 5.4.1 节 ) 说 明 , 大 量 独立 同 分 布 的 随机 变量 的 和 遵循 的 分 布 近似 为 正 态 分 布 
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之 所 以 使 用 正 态 分 布 来 代替 ,原因 之 一 是 多 数 统计 参考 都 用 列表 给 出 了 正 态 分 布下 关于 
均值 的 包含 NOH RRM RAD. 这 就 是 计算 NO BRA. SPE 
表 5-1 正 是 这 样 一 个 表 。 表 5-1 中 给 定 的 常数 2, 定义 的 是 在 钟 形 正 态 分 布下 ,包含 NM 
率 质量 的 关于 均值 的 最 小 区 间 的 宽度 。 更 精确 地 说 , zw 以 标准 差 给 定 了 区 间 的 半 宽 度 ( 即 在 
古 一 :上 方向 距 均 值 的 距离 ), 图 5-1a 给 出 了 针对 zo gw 的 一 个 区 间 。 





号 在 吧 名 者 信和 度 下 ,随机 变量 值 位 于 双 柚 区 间 [ -1.28, 1.28] 之 间 . 注意 z m=1.28。 有 10 品 置信 和 度 其 
落 入 区 间 左 出 ,10%% 落 入 区 间 右 简 。b) 在 由 后 置信 和 订 上 ,随机 变量 位 于 单 侧 区 间 [ - oo, 1.28] 上 
图 5-1 均值 为 0, 标 准 差 为 1 RESA 


总 而 言 之 ,如果 随机 变量 了 服从 均值 为 ,标准 差 为 o 的 一 个 正太 分布 ,那么 了 的 尾 一 观 
察 值 y 有 胡 久 的 机 会 落 人 下面 的 区 间 ， 


jit By (5.10) 
相似 地 ,均值 u A 浆 铝 的 机 会 落 和 人 和 下面 的 区 间 : 
ytz (5.11) 


很 容易 将 此 结论 和 前 面 的 结论 结合 起 来 ,推导 式 (5.1) 的 离散 值 假 设 的 N% Efa ia 
一 般 表 达 式 。 首 先 , 由 于 errors() 遵 从 二 项 分 布 ,其 均值 为 errorg (h), EZ WNT (S.9) Br 
示 。 其 次 ,我 们 知道 对 于 足够 大 的 样本 ,二 项 分 布 非常 近似 于 正 态 分 布 。 第 三 , 式 (5.11) 告 
诉 我 们 如 何 为 估计 正 态 分 布 的 均值 求 出 N% 置信 区 间 。 因 此 ,将 errors (上 ) 的 均值 和 标准 差 
代 人 到 式 ($.11) 中 将 得 到 式 (5.1) 中 对 离散 值 假设 的 六 各 置信 区 间 为 : 


Pe ite perrorsi hI = errors(h)) 


回忆 一 下 ,在 表达 式 的 推导 中 有 两 个 近似 : 
1) 估计 errors hMIA o 时 ,我 们 将 errors (Ch) UMA errors th)[ 如 从 式 (5.8) 到 
式 (5.9) 的 推导 ]。 
2) 用 正 态 分 布 近似 二 项 分 布 。 
统计 学 中 的 一 般 规 则 表明 ,这 两 个 近似 在 ne 30 BR np (1- p)z5 时 工作 得 很 好 。 对 于 
较 小 的 n 值 ,最 好 使 用 列表 的 形式 给 出 二 项 分 布 的 具体 值 。 


5.3.6 双 便 和 单 侧 边 界 


土 述 的 置信 区 间 是 双全 的 , 即 它 规定 了 估计 量 的 上 界 和 下 界 。 在 某 些 情况 下 ,可 能 要 用 到 
单 侧 边 界 。 例 如 ,提出 问题 “errore () 至 多 为 U 的 概率 ”。 在 只 要 限定 h RARER, Mi 
不 在 乎 真实 错误 率 是 否 小 于 估计 错误 率 时 ,很 自然 会 提出 这 种 问题 。 
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只 要 对 土 述 的 过 程 作 一 小 的 修改 就 可 计算 单 侧 错误 率 边 界 。 它 所 基于 的 事实 为 正 态 分 布 
关于 其 均值 对 称 。 因 此 ,任意 正 态 分 布 上 的 双 侧 置信 区 间 能 够 转换 为 相应 的 单 便 区 间 , 置 信和 度 
为 原来 的 两 倍 ( 见 图 5-1b)。 换 言 之 .由 -个 有 下 界 LAMER U $) 10001- 2) % BA RIB, al 
得 到 一 个 下 界 为 上 且 无 上 界 的 100(1 - az2) 咏 置信 区 间 , 同 时 也 可 得 出 一 个 有 上 界 已 且 无 下 
界 的 100(1 - zz2) 铝 置信 区 疝 。 这 里 oe 对 应 于 真实 什 落 在 指定 区 间 外 的 概率 。 换 全 话说 ,ae 
是 真实 值 落 和 人 图 5- 1a 中 无 阴影 部 分 的 概率 ,a/2 足 落 人 入 图 5- 1b 的 碟 阴 影 部 分 的 概率 。 

为 说 明 这 一 点 ,再 次 考 碟 睛 产生 r= 12 个 错误 且 样 本 大 小 n= 4 的 这 个 例子 ， 如 上 也 
述 , 它 导 教 一 个 双 侧 的 95 吕 置信 和 区间 O.3+0.14. HP 10001 一 ga) = 95% FFL a = 0.05, A 
此 ,应 用 以 上 规则 ,可 得 有 100(1 - az2) = 97.5% BEE errora (上) 最 多 为 0.30+0.14= 
0.44, 而 不 管 errora (RETA AE errory (上 的 单 侧 错 误 率 边界 比 相应 的 双 侧 边界 
有 疫 倍 的 置信 和 度 ( 见 习题 5.3)。 


5.4 推导 置信 区 间 的 一 般 方法 


前 一 节 介 绍 的 是 针对 一 特定 情况 推导 置信 区 间 估 计 : 基 于 独立 抽取 的 n PEA A a 
散 值 假设 的 errorw(h)。 本 节 介 绍 的 方法 是 在 许多 仿 计 问题 中 用 到 的 通用 的 方法。 确切 地 
讲 ,我们 可 以 将 此 看 作 是 基于 大 小 为 n 的 随机 抽取 样本 的 均值 ,来 估计 总 体 均值 的 问题 . 

通用 的 过 程 包 人 党 以 下 步 又 ; 

1) 确定 基准 总 体 中 要 全 计 的 参数 p ,例如 error 区 【下 ) 

2) 定义 一 个 估计 量 了 {如 errors(h)), 它 的 选择 应 为 最 小 方差 的 无 搓 估 计量: 

3) 确定 控制 估计 量 了 的 概率 分 布 细 ,包括 其 均值 和 方差 ， 

4) 通过 寻找 阅 值 L 和 5 ME NG BHR, ER TE oY 分 布 的 随机 变量 有 入 名 机 会 

A LAU ZI. 

EERE RAAR EMA LL Re Pa TPR. ERR 

们 需要 讨论 估计 理论 的 一 个 重要 成 果 ， 称 为 中 心 极 限定 理 (Central Limit Theorem). 


中 心 极限 定理 


中 心 极限 定理 是 简化 置信 区 间 推 导 的 一 个 基本 根据 。 考 目 如 下 的 一 般 框 架 : 在 ”个 独立 
抽取 的 且 服 从 同样 概率 分 布 的 随机 变量 了,… Yn 中 观察 实验 值 (如 一 硬币 的 ”次 抛掷)。 僧 y 
代表 每 一 变量 Y, 服从 的 未 知 分 布 的 均值 ,并 令 o 代表 标准 差 , 称 这 些 变 量 了 ,; 为 独立 同 分 页 


(independent, identically distributed) 随 机 变量 ,因为 它们 描述 的 是 各 自 独 立 并 且 服 从 问 样 概率 
分 布 的 实验 。 为 估计 Y; 服从 的 分 布 的 均值 ,我 们 计算 样本 的 均值 了 ,= SS, (如 nn 


次 投掷 看 币 中 出 现 正面 的 比例 )。 中 心 极限 定理 说 明 在 a 一 时 Y, 所 服从 的 概率 分 布 为 一 


a 


正 态 分 布 ,而 不 论 了 本 身 服 从 什么 样 的 分 布 。 更 进一步 讲 , 了, 服从 的 分 布 均 值 为 j 向 且 标 


MEE ,精确 的 定 浆 如 下 : 


定理 5.1: 中 心 极限 定理 ”考虑 独立 同 分 布 的 随机 变量 Yi.. Y, ORS, EIRA- ALR ED hi, 
均值 为 xy, 有 限 方差 为 a2。 定 义 样本 均值 了 ,= DY: , 则 当 nm 时 下 看 的 式 子 : 
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服 其 一 正 态 分 布 , 均 值 为 0 且 标 准 考 为 1. 


这 一 结论 非常 令 人 吃惊 ,因为 它 说 明 在 不 知道 独立 的 了 ; 所 服从 的 基准 分 布 的 情 沈 下 ,我 
们 9 以 得 知 样本 均值 了 的 分 布 形式 。 更 进一步 说 ,中 心 极限 定理 说 明了 怎样 使 用 的 均值 
和 方差 来 确定 独立 的 7; 的 均值 和 方差 。 

中 心 极限 定理 是 一 个 非常 有 用 的 结论 ,因为 它 表 示 任 意 样 本 均值 的 估计 量 ( 如 errors Ch) 
为 平均 错误 率 ) 服 从 的 分 布 在 n 足够 大 时 可 近似 为 正 态 分 布 。 如 条 还 知道 这 一 近似 的 正 态 分 
布 的 方差 ,就 可 用 式 (5.11) 来 计算 置信 和 区间。 一 个 通常 的 规则 是 在 n=30 时 可 使 用 这 一 近 
似 。 前 面 的 章节 我 们 正 是 使 用 了 正 态 分 布 来 近似 地 描述 errors(4) 服 从 的 二 项 分 布 。 


5.5 两 个 假设 错误 率 间 的 差异 


现在 考虑 对 某 离散 目标 函数 有 两 个 假设 hi 和 假设 hi 在 一 拥有 n, 个 随机 抽取 的 样 
例 的 样本 S, 上 测试 , 且 h 在 拥有 no 个 从 相同 分 布 中 抽取 的 样 例 的 样本 S 上 测试 。 假 定 要 
鸽 计 这 两 个 假设 的 真实 错误 率 间 的 差异 ; 
d = errora hi) — errotak ho) 
可 使 用 第 5.4 RRR ORES d 的 置信 区 间 估 计 。 在 确定 d 为 待 癸 计 的 参 
数 后 ,下 面 要 定义 一 佑 计量 。 显 然 , 这 里 可 选择 样本 错误 率 之 间 的 差异 作为 佑 计量 ,标记 为 d: 
d= errors (hy) 一 errors (ft) 
在 此 虽 不 加 证 明 ,但 可 以 认为 d 即 为 了 的 无 偏 伍 计 量 , 即 El ad] = do 
随机 变量 d 服从 的 概率 分 布 是 什么 ? 从 前 面 的 章节 中 ,我 们 知道 对 于 较 大 的 mn: 和 naike 
如 都 六 30) „errors (1) 和 errors, (ja) 都 近似 遵从 正 态 分 布 。 由 于 两 正 态 分 布 的 差 仍 为 一 正 
态 分 布 ,因此 & 也 近似 遵从 正 态 分 布 ,均值 为 a。 同时 ,可 得 出 该 分 布 的 方差 为 errors (hi) 
errors ( ja) 的 方差 的 和 。 使 用 式 (5.9) 获 得 这 两 个 分 布 的 近似 方差 : 
An a errors (h1)) : 人 errors (hy }) ce 
现在 已 确定 了 估计 量 4 所 服从 的 概率 分 布 ,很 容易 推导 出 置信 区 间 以 说 明 使 用 d 来 估计 
d 的 可 能 误差 。 随 机 变量 4 服从 均值 4 方差 o? 的 正 态 分 布 ,其 No REKE d t zno。 
使 用 上 面 给 出 的 方差 a3 的 近似 值 , d 的 近似 的 N% 置信 区 间 估 计 为 : 


| (Rh OCL -errors (h,)) errors Ch2}{l] — errors (h2)) 
a+ zn eee eee Aas an (5.13) 


其 中 zw 是 表 5-1 中 描述 的 常数 。 上 式 给 出 了 一 般 的 双 侧 置信 区 间 , 以 估计 两 个 假设 错 
误 率 之 间 的 差异 。 有 时 可 能 需要 某 一 置信 和 度 下 的 单 侧 的 边界 一 一 要 人 么 界定 最 大 可 能 差异 ,要 
么 为 最 小 的 可 能 差异 。 单 倒置 信 区 间 可 以 通用 第 5.3.6 节 中 找 述 的 方法 修改 上 式 而 得 到 。 
虽然 上 面 的 分 析 考 虑 的 是 A, 和 hh 在 相互 独立 的 数据 样本 上 测试 的 情况 ,但 是 在 一 个 样 
i SCS 仍然 独立 于 和 hy) EWR h 和 hs HAAR. 1A E fa KEE A dE 
o 这样 ,24 被 重新 定义 为 ; 
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d= errors hi} - errors( hy) 
当 使 用 S KARR S 和 Sa 时 ,新 的 d ANA Pa BARS. 12) a 28, GARIN 
使 用 单个 的 样本 3 消除 了 由 5; 和 8, 的 组 合 带 来 的 随机 差异 ， 这 样 ,由 式 45.13) 给 出 的 置信 
区 间 一 般 说 来 会 过 于 保守 ,但 仍然 是 正确 的 . 


假设 检验 


有 时 我 们 感 兴趣 的 是 某 个 特定 的 猜想 正确 的 概率 ,而 不 是 对 某 参 数 的 置信 区 问 佑 计 ， 比 
a FARE “error Lh.) > error hh2) 的 可 能 性 有 多 大 ?” 仍 使 用 前 一 节 的 条 件 设 定 ,假定 
Bast A, Al hh, 的 样本 错误 率 ,使 用 大 小 为 100 的 独立 样本 Si 和 Sa ,并 且 知 道 errors Chi) = 
0.30 E. errors, (h,) = 0.20, AIE # F d 为 0.10。 当 然 ,由 十 数据 样本 的 随机 性 ,即使 
error,< hy) error hy) , 仍 有 可 能 得 到 这 样 的 差异 。 在 这 里 ,给 定 d = 0.10, error hy) > 
error 有) 的 概率 是 多 少 ? 与 此 相对 应 ,如 何 计算 在 d =0.10 Rf, d >0 的 概率 ? 

注意 ,概率 Prd > OFT d 对 d 的 过 高 估计 不 大 于 0.1 的 概率 ,也 就 是 这 个 概率 为 d AA 
单 侧 区 间 & < d+0.10 的 概率 。 由 于 d 是 @ 所 服从 的 分 布 的 均值 ,上 式 等 价 -4 < yp +0.10, 

概括 地 说 ,概率 Prid >0) 等 于 d HRA PMI 9 < w+0.10 的 概率 。 由 于 前 - - 凶 我 们 已 计算 
册立 的 大 敏 分 布 ,就 可 以 通过 d 分 布 在 该 区 间 的 概率 质量 来 确定 d 落 人 这 个 单 侧 区 间 的 概率 . 

首先 ,将 区 间 d< po + 0.10 用 允许 偏离 均值 的 标准 差 的 数目 来 重新 表 小 。 使 用 式 (5.12) 
可 得 ,oj =0.061, 所 以 这 一 区 间 可 近似 表示 为 ; 

d< gt 1.64e3 

二 此 正午 分 布 的 单 侧 区 间 相 关联 的 置信 和 度 是 多 少 呢 ? 查 表 5-1 可 得 ,关于 均值 的 1.64 标 
淮 差 对 应 置信 和 度 90 名 的 双 司 区间。 因此 这 个 单 侧 区 间 具 有 95 名 的 置信 刻 。 

AE, ASE ERI d =0.1, errora hy) > error A ho) KERALA 0.95, 根据 统计 学 网 木 请 品 
PORN PEF (accept) “errors hy) > error 以 各 六 这 一 假设 , 员 信 和 度 为 0.%5。 换 一 种 说 法 可 表述 为 :我 
们 拒绝 (rejecb) 对 立 假设 ( 常 称 为 零 假 设 ) ,以 (1- 0.95) =0.05 的 显著 水 平 (significance level). 


5.6 学 习 算 法 比较 


有 时 我 们 更 感 兴趣 的 是 比较 两 个 学 习 算 法 La AL, 的 性 能 ,而 不 是 两 个 具体 的 假 戊 本 
身 ， 怎 样 近似 地 检验 多 个 学 习 算法 ,如 何 确定 两 个 算 落 之 间 的 差异 在 统计 上 是 有 意义 的 ? H 
R ,在 机 器 学 习 研 究 领 域 , 关 于 学 习 算法 比较 哪个 方法 最 好 仍 存在 激烈 的 争论 ,不 过 这 里 介绍 
了 一 个 台 理 的 途径 。 关于 不 同方 法 的 讨论 见 Dietterich( 1996) 。 

通常 , 先 指定 要 估计 的 参数 。 假 定 有 L, 和 Ls BRK, BREA FoF Re Ate 
数 ,平均 来 说 那个 算法 更 好 。 定 义 “平均 ”的 一 种 合理 方法 是 ,从 一 基准 实例 分 布 作 中 抽取 包 
on 个 样 例 的 训练 集合 ,在 所 有 这 样 的 集 人 台中 测量 两 个 算法 的 半 均 性 能 。 换 名 话说 .而 要 人 入 
计 假 设 错误 率 之 间 差 异 的 期 望 值 : 

Ef error Lat 5)) ~ errora Bal 5) } (5.14) 

其 中 , 工 (3 代表 在 给 定 训 练 数据 的 样本 S 时 ,学 习 算 法 工 输出 的 假设 ,下 标 SCY RA 
期 望 值 是 在 基准 分 布 多 中 抽取 的 样本 S 上 计算 。 上 述 表达 式 描述 的 是 学 为 算法 La 和 La 之 
间 的 差异 的 期 望 值 。 
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在 实际 的 学 习 算法 比较 中 ,我 们 只 有 一 个 有 限 的 样本 Doo ERRED T, IER, BRIT E 
D 分 割 成 训练 集合 So 和 与 之 不 相交 的 测试 集合 Tos DH RHE AT CA FA BU S 
又 训练 La, HTS i RHE MU FB EC BEF TED BU EB BE, EMEA TARIA : 
errory ( La( S0)) - error, (Lg So)) (45.15) 


E 式 与 式 (5.14) 的 计算 有 两 个 重要 的 不 同 。 首 先 我 们 使 用 errorr Ch) RAR error h) 
其 次 ,错误 率 的 差异 测量 是 在 一 个 训练 集合 So 上 ,市 不 是 在 从 分 布 多 中 抽取 的 所 有 的 样 全 S 
上 计算 期 望 值 。 
改进 式 (5.15) 的 一 种 方法 是 将 数据 Do 多 次 分 割 为 不 相交 的 训练 和 测试 集合 ,然后 在 其 
中 计算 这 些 不 园 的 试验 的 错误 率 的 平均 值 。 这 一 过 程 在 表 5-5 中 列 出 , 它 在 一 可 用 的 固定 数 
only Dp。 上 估计 两 个 学 习 算法 错误 率 之 间 的 差异 .该 过 程 首先 将 数据 拆 分 为 个 不 相交 的 
等 子 集 , 子 集 大 小 至 少 为 30, 然 后 训练 和 测试 算法 上 次 ,每 次 使 用 其 中 一 个 子 集 作 为 测试 数 
其 他 上 -1 个 子 集 为 训练 集 。 使 用 这 种 办 法 ,学 习 算 法 在 上 TH 而 把 
错误 率 的 差异 的 均值 5 作为 两 个 学 习 算法 间 差 异 的 估计 、 
5-5 估计 两 个 学 习 算法 La 和 Ls AREARE 
1 将 可 用 数据 Do WIR PLA DDE T. Too The 其 大 小 至 少 为 30 
2. 令 5 从 1 到 下 循环 ,做 下 面 的 操作 : 
使 用 T 作为 测试 巢 侣 ,而 剩余 的 数据 作为 训练 华 合 》 
$ $] Do- T.i 
@ hat Lals) 


@ hg Lal 5,) 
各 上 日 < -errorr (Ra) 一 errorr ( fig? 


3. AMH å, AS 
set yre, (5.16) 
EE Gao 
注 ， 近 似 的 置信 区 闻 将 在 正文 中 给 出 。 
表 5-5 返回 的 5 可 被 用 作对 公式 (5.14) 所 需 的 量 的 一 -个 估计 。 更 合适 的 说 法 是 把 8 看 
作 是 下 式 的 估计 : 
,EB (errored La(S)) ~ errora Lat 5))] (5.17) 


其 中 ,S 代表 一 个 大 小 为 上 1 | Dol EA Do 中 均匀 抽取 出 的 随机 样本 。 在 该 式 和 式 
[514) 中 最 初 的 表达 式 之 间 , 惟 一 的 差别 在 于 其 期 望 值 的 计算 是 在 可 用 数据 Do 的 子 集 上 计 
算 , 而 不 是 在 从 整个 分 布 多 上 抽取 的 子 集 上 计算 。 
估计 式 (5.17) 的 近似 的 N% 置信 区 间 , 可 用 5 表示 为 : 
Ò t ty 4-183 (5.18) 
其 中 ty g ,是 一 常数 ,其 意义 类 伏 于 前 而 置信 区 间 表 达 式 中 的 zw Dog RS 所 服从 
的 概率 分 布 的 标准 差 的 估计 ,更 确切 地 讲 ss 的 定义 为 ， 


1 OC 
5 = ER wy 2a 6 - 8 (5.19) 


注意 , 式 (5.18) 中 的 常量 ty, 5 1A PR 第 一 个 代表 所 需 的 置信 和 度 ,如 前 面 的 常数 
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zw 中 那样 。 第 二 个 参数 称 为 自由 度 (degree of freedom), WRICTE vo, 它 与 生成 随机 变量 的 
什 时 独立 的 随机 事件 数目 相关 。 在 当前 的 荣 件 下 ,是 由 度数 值 为 撕 - 1。 参 数 ; 的 几 种 取 值 在 
表 5-6 HAH., WE kokt, typ. AI TR yo 

表 5-6 双 仙 置信 区 间 必 ,的 征 


TAR N 
8% 8H = É 99% 
Tan 2.92 4.30 6.96 9.92 
ees 2.02 2 57 4.03 
paii 1.8} 2.23 2.16 3.17 
v =20 1.72 2.09 2.53 2.84 
pedo 1.70 2.04 2.46 2.75 
» = 120 1.66 1.98 2.36 2.62 
和 1.64 1.96 2.33 2.58 


Sa eo bt ty ARUP iyo 

CES oe FRR AY eS BY RE PERS EAP RI, 这 与 5.5 
PHAR AY LOB BS Ae RP RRA] EAHA TE AS HLA a A 
对 测试 { paired test), SDH DRS ER RHR. AAA eA 
异 都 来 源 于 假设 之 间 的 差异 。 相 反 , 若 假 设 在 分 开 的 数据 样本 上 的 测试 ,两 个 样本 错误 率 之 问 
的 差异 也 可 能 部 分 来 源 于 两 个 样本 组 成 上 的 不 同 ， 
5.6.1 配对 上 测试 

上 而 描述 了 在 给 阜 固 定数 据 集 时 比较 了 两 个 学 习 算 法 的 过 程 。 本 节 讨 论 这 一 过 程 以 大 
式 (5.18) 和 式 1{5.19) 中 置信 区 间 的 统计 学 论证 。 如 果 第 一 次 阅读 ,为 不 失 连 续 炸 可 以 跳 过 它 ， 

为 了 理解 式 (5.18) 中 的 普 信 区 间 , 考 虑 以 下 的 估计 问题 : 

© 给 定 一 系列 独立 同 分 布 的 随机 变量 Yi, fa... ¥, 的 观察 值 。 

e 要 估计 这 些 了 , 所 服从 的 概率 分 布 的 均值 eo 

© 使 用 的 估计 量 为 样本 均值 Y。 

Y = 


Il 
一 


这 一 基于 样本 均值 了 UO PRE oe l,m OCH 
errors( REET errorsk 4 上) 的 问题 (其 中 ,了 ,六 0 或 1 表示 4& 是 否 对 一 单独 的 5 样 例 产 生 误 
分 类 ,而 errora h AEA MAHA 1)。 由 式 (5.18) 和 和 式 (5.19) 描 述 的 + 测试 应 用 于 该 间 
题 的 一 特殊 情形 一 一 即 每 个 单独 的 Y; 都 遵循 正 态 分 布 。 

现 考虑 表 5-5 比较 学 习 算 法 的 过 程 的 一 个 理想 化 形式 。 假 定 不 是 拥有 固定 样本 数据 Do, 
面 是 从 基准 实例 分 布 中 抽取 新 的 训练 样 鲍 。 在 这 里 我 们 修改 表 5-5 中 的 过 程 ,使 每 一 次 循环 
生成 新 的 随机 训练 集 5; 和 新 的 随机 测试 集 Ti ,生成 方法 是 从 基准 实例 分 布 中 拙 取 而 不 是 从 
固定 样本 Dy 中 抽取 。 这 一 理想 化 方法 能 很 好 地 匹配 上 面 的 估计 间 题 ,特别 是 该 过 程 所 浏 量 
的 6, 现在 对 应 到 独立 同 分 步 的 随机 变量 了, ,其 分 布 的 均值 w 对 应 两 学 习 算 落 销 旋 率 的 期 望 
差异 (如 式 (5.14)), 样 本 均值 了 为 这 一 理想 化 方法 计算 出 的 3。 我 们 希望 回答 “8 是 否 能 较 好 
SAAT pe?" 这 一 问题 。 

首先 注意 到 ,测试 集 T 至 少 包 含 30 个 样 例 。 因 此 ,单独 的 5; 将 近似 遵循 正 态 分 布 (由 中 
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心 极限 定理 }。 因 此 ,我 们 有 一 特殊 条 件 即 Y; 服从 近似 的 正 态 分 布 。 我 们 知道 ,一 般 当 每 个 
Y 遵循 正 态 分 布 时 ,样本 均值 Y 也 遵循 正 态 分 布 。 由 此 ,可 以 考虑 使 用 前 面 计 算 置 他 区 间 的 
胡 达 式 {( 肛 (5.11)) 其 中 的 估计 量 目 查 循 正 态 分 布 。 然 而 ,该 会 趟 要求 我 们 知道 这 个 从 布 的 为 
准 差 ,但 现在 标准 善 未 知 。 
1 测试 正好 用 于 这 样 的 情形 Bat ~ 系列 独立 同 正 态 分 布 的 随机 变量 的 样本 均值 、 在 
这 里 ,可 使 用 式 (5.18) 和 式 ($.19) 中 的 置信 区 亲 , 它 可 被 重新 表述 为 
p= F £ ty py sy 


其 中 ,sy 为 们 计 的 样本 均值 的 标准 差 ， 


y= dni gA - PY 

RE, ty, 4.1 是 一 个 类 似 于 前 面 的 zw 的 常量 。 实 际 上 ,常量 tw ;1 描述 的 是 被 称 为 :分布 
的 概率 分 布下 的 区 域 ,正如 常数 zw 描述 了 正 态 分 布下 的 区 域 。: 分 布 是 一 类 似 于 正 态 分 布 的 名 
形 分 布 ,但 更 宽 且 更 狠 , 以 反映 由 于 使 用 sy 来 近似 真实 的 标准 差 oy 时 带 来 的 更 大 的 方差 。 当 & 
趋 近 于 无 穷 时 ,4 分 布 趋 近 于 正 态 分 布 (因此 , oy, , 趋 近 于 zw)。 这 在 直觉 上 是 正确 的 ,因为 我 


们 希望 样本 规模 上 增加 时 sy Wee FI Se Ep EE oy ,并 且 当 标准 差 确 切 已 知 时 可 使 用 zy 
5.6.2 实际 考虑 


上 面 的 讨论 证 明了 在 使 用 样本 均值 来 合计 一 个 包 合 天 个 独立 网 正 态 分 布 的 随机 变量 的 
梓 本 均值 时 ,可 使 用 式 43.18) 来 估计 时 信 区 间 。 该 绪论 在 我 们 的 理想 化 方法 中 是 合适 的 , 即 假 
SE TF EE oe pA ETOP ER. YES ASE D 有 限 , 且 算法 使 用 表 5$-5 fk 
述 的 实际 方法 ,这 一 证 明 并 不 严格 适用 。 实 际 的 问题 是 ,为 产生 8; 只 有 重新 采样 Do, HA lE 
的 方法 把 它 分 割 为 测试 集 和 训练 集 。 此 时 i; 相互 之 间 并 不 独立 ,因为 它们 基于 从 有 有 限 子 集 
Do 中 抽取 的 相互 重 登 的 训练 样 例 , 丽 不 是 从 整个 分 布 多 中 抽取 的 杆 例 。 

当 只 有 -- 个 有 限 的 数据 样本 Do 可 用 时 ,有 了 刀 种 方法 可 摘 用 来 重 采 样 Do。 表 5-5 描述 的 
是 t-fold 方法 ,其 中 Do 被 分 为 上 个 不 相交 的 等 大 小 的 子 集 。 在 这 种 k- fod 方法 中 , Do 中 每 
一 样 例 都 有 一 次 用 于 测试 ,而 上 -1 次 用 于 训练 。 另 一 种 常用 的 方法 是 从 Do 中 随机 抽取 至少 
有 30 个 样 例 的 测试 集合 ,再 用 镜 余 的 样 例 来 训练 ,重复 这 一 过 程 直 到 足够 的 次 数 。 这 种 随机 
方法 的 好 处 是 能 够 重复 无 数 次 ,以 减 小 置信 区 间 到 需要 的 宽度 。 相 反 ,8-fold THESE 
的 总 数 ,这 是 因为 每 个 样 例 只 有 一 次 用 于 测试 , 且 希 望 样本 大 小 至 少 为 30。 然 而 ,随机 方法 的 
缺点 是 ,测试 集合 不 能 再 被 看 作 是 从 基准 实例 分 布 多 中 独立 抽取 。 相 反 ,六 fold 交叉 验证 生成 
的 测试 集合 是 独立 的 ,因为 一 个 实例 只 在 测试 集合 中 出 现 一 次 。 

概括 地 说 ,基于 有 限 数据 的 学 习 算法 的 比较 中 没有 一 个 单独 的 方法 能 满足 我 们 希望 的 所 
有 约束 。 有 必要 记 住 ,统计 学 模型 在 数据 有 限时 很 少 能 完美 地 区 配 学 习 算 法 验证 中 的 所 有 约 
束 。 然 而 ,它们 确实 提供 了 近似 的 置信 区 间 , 有 助 于 解释 学 习 算 法 的 实验 性 比较 。 


5.7 小 结 和 补充 读物 


AN a AUTA: 
o 统计 理论 握 供 了 一 个 基础 ,从 而 基于 在 数据 样本 S 上 的 观察 错误 雍 errors( 上) ,估计 候 
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110 BEF 
设 h HAELAF error AA), PIU, NR AAR, MARA n= 
30 PARE 疡 且 相互 独立 的 桩 例 时 ,那么 error A AOE N% BSR : 
errors( h) t zy se ~ errors(h)) 
其 中 ,zw 的 值 由 表 5-1 给 出 。 
© 一 般 来 说 ,和 人知 计 和 置信 区 问 的 问题 可 通过 确定 一 竺 估计 的 参数 (如 errora h) UA RADHA 
AHi E errors 有)) 来 完成 。 由 于 估计 量 是 . -个 随机 变 基 {如 errors (hh) fF F REAL 
FEAL S), TET CARA ER oP te RR. ERR IT SEK th FAS 
Flr ia (BE CE (probability mass) 的 区 问 来 描述 。 
e 待 计 和 假 设 精 度 中 的 -一 种 可 能 误差 为 估计 偏差 (estimation bias), I 了 ANT HEB RM p 
的 佑 计量, 了 的 人知 计 偏差 为 Y SA, 之 间 的 差 。 例 如, 如果 S 是 用 来 形成 假设 
h 的 训练 数据 , 则 errors AAG TASES errorA) 的 一 个 乐观 的 有 偏 倘 计 。 
e 估计 产生 误差 的 第 二 种 原因 是 估计 方差 (variance)。 即 使 对 于 无 偏 居 计 , 悄 计量 的 观察 
值 也 有 可 能 在 各 实验 中 不 同 。 估 计量 分 布 的 方差 o* 描述 了 该 信 计 与 真实 值 的 不 同 有 
多 大 。 该 方差 在 数据 样本 增 大 时 降低 . 
@ 比较 两 学 习 算 法 效果 的 问题 在 数据 和 时 间 无 限时 是 一 个 相对 容易 的 估计 问题 , 代 在 资 
源 有 限时 要 困难 得 多 。 本 章 描 述 的 一 种 途径 是 在 可 用 数据 的 不 同 子 集 上 运行 学 习 算 
法 ,在 剩余 数据 上 测试 学 到 的 假设 ,然后 取 这 些 实验 的 结果 平均 值 。 
9 在 这 里 所 考虑 的 多 数 情况 下 ,推导 置信 区 问 需要 进行 多 个 假定 和 近似 。 例 如 直面 的 
error 以 声 ) 的 置信 区 间 需 槛 将 二 项 分 布 近 个 为 下 态 分 布 ; 近 似 计 算 分 布 的 方差 ; 以 及 假 
定 实 例 从 一 固定 不 变 的 概率 分 布 中 生成 。 基 于 这 些 近 似 得 到 的 区 间 只 是 近似 置信 区 
间 ,但 它们 仍 提 人 殿 了 设计 和 解释 机 器 学 习 实验 结果 的 有 效 指导 。 
本 章 介 绍 的 关键 统计 学 定义 在 表 5-2 PSU. 
使 用 统计 的 方法 来 估计 和 测试 假设 这 一 主题 有 大 量 的 文献 。 本 章 只 介绍 了 基本 概念 , 细 
节 的 问题 可 在 许多 书籍 和 文章 中 找到 。Billingsley et al.(1986) 提 供 了 对 统计 学 的 :…- 个 很 简明 
的 介绍 ,详尽 描述 了 这 里 所 讨论 的 一 些 问 题 。 其 他 文献 包括 DeGroot( 1986), Casella & Berger 
(1990), Duda & Hart(1973) 在 数值 模式 识别 领域 提出 了 对 这 些 问题 的 解决 办 法 。 
Segre et al. (1991,1996) Etzioni & Etzioni( 1994) BR Gordon & Sepre( 1996) 讨 论 SPE 
学 习 算法 的 统计 意义 测试 ,算法 的 性 能 根据 其 改进 计算 效率 的 能 力 来 评测 。 
Geman et al.(1992) 讨 论 了 在 同时 最 小 化 怕 差 和 最 小 化 方差 之 间作 出 的 折 中 。 这 一 从 有 
限 数 据 中 学 习 和 和 比较 假设 的 主题 仍 在 争论 中 . 例如 ,Dietterich(1996) 讨 论 了 在 不 同 的 训练 - 测 
试 数据 分 割 下 使 用 配对 差异 + 测试 带 来 的 风险 。 


习题 

5.) 在 测试 一 候 设 上 时 ,发 现在 一 包含 n = 1000 个 随机 抽取 样 例 的 样本 5 E ERM r = 
300 个 错误 。errors(h) 的 标准 差 是 什么 ? 将 此 结果 与 第 5.3.4 节 末 尾 的 例子 中 标准 差 
相 比 较 会 得 出 什么 结论 ? 

5.2 考虑 邯 布 尔 值 概念 中 学 到 的 假设 有 有， 当 上 在 100 个 样 例 的 集合 上 测试 时 ,有 83 个 分 类 
正确 。 那 么 真实 错误 率 errora 有) 的 标准 差 和 95 免 置信 区 间 各 是 多 少 ? 
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5.3 SUBS h En = 65 的 独立 抽取 样 术 上 由 现 r=10 PSR, BERR 90% BRIX 
fa) CALM ee 站 驳 单 人 出 置信 区 间 ( 即 一 个 上 性 OU EEA 95% SCRE error Ah) 
< 也) 是 多 少 ? 90 擅 单 侧 区 间 是 老少 ” 

5.4 要 测试 一 候 设 站 ,其 error ARNO WE 0.2 AO. 6 ARIA, BCR 950 uE daki 
的 宽度 小 于 0.1, 最 少 应 搜集 的 样 例 数 是 多 少 ? 

5.5 MTHS AEE FO RR Be AH eae EAP RY 


N% 置 信 区 间 的 通用 表达 式 。 
5.6 解释 为 什么 式 (5.18) 给 出 的 置信 区 和 出 估计 可 用 十 估计 式 (5.17) ,而 不 能 估计 式 (5.14) 
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S62 贝 叶 斯 学 习 


由 叶 斯 推理 提供 了 推理 的 一 种 概率 手段 。 它 基于 如 下 的 假定 , 即 符 考 查 的 量 苯 循 某 概率 
分 布 , 旦 可 根据 这 些 概率 太 已 观察 到 的 数据 进行 推理 ,以 作出 最 优 的 决策 。 贝 叶 斯 推理 对 机 器 
学 习 上 分 重要 ,因为 它 为 衡量 多 个 假设 的 填 信 和 度 提 供 了 定量 的 方法 。 贝 叶 斯 推理 为 直接 操作 
概率 的 学 习 算 法 提供 了 基础 ,而 且 它 也 为 其 他 算法 的 分 析 提 供 了 理论 框架 .、 


6.1 简介 


贝 叶 斯 掌 习 算法 同 我 们 的 机 器 学 习 研 究 相 关 有 两 个 原因 ;首先 ,页 叶 斯 学 习 算法 能 够 计算 
显 式 的 假说 概率 ,如 朴素 贝 叶 斯 分 类 句 , 它 是 解 次 相应 学 习 问 题 的 最 实际 的 方法 之 …。 例 如 ， 
Michie et al, (1994) 详 细 研 究 并 比较 了 村 案由 叶 斯 分 类 器 和 和 其 他 学 习 算法 ,包括 决策 树 和 神经 
网 络 。 他 们 发 现 朴 素 贝 叶 斯 分 类 器 在 多 数 情况 下 与 其 他 学 习 算法 性 能 相当 ,在 某 些 情况 下 还 
优 于 其 他 算法 。 本 章 描 述 了 朴素 贝 叶 斯 分 类 器 并 提供 了 一 个 详细 鲍 子 , 即 它 应 用 于 文本 文档 
分 类 的 学 习 问 题 ( 如 电子 新 闻 分 类 )。 对 于 这 样 的 学 习 任 务 , 朴 素 贝 叶 斯 分 类 是 最 有 效 的 算法 
之 一 : 
贝 寺 斯 方法 对 于 机 器 学 习 研 究 的 重要 性 还 体现 在 它 为 理解 多 数学 习 算法 提供 了 AAA 
的 手段 ,而 这 些 算法 不 一 定 直接 操纵 概率 数据 。 例 如 ,本 章 分 析 了 第 2 章 的 Finp-$ 和 候选 消 
除 算法 ,以 判断 在 给 定数 据 时 哪 一 个 算法 将 输出 最 有 可 能 的 假设 。 我 们 还 使 用 贝 叶 斯 分 析 让 
明了 神经 网 络 学 习 中 的 一 个 关键 性 的 选择 : 即 在 搜索 神经 网 络 空间 时 ,选择 使 误差 平方 和 最 小 
化 的 神经 网 络 。 我 们 还 推导 出 另 一 种 误差 是 数 :交叉 粹 。 它 在 学 习 预 测 概率 目标 函数 时 比 谈 
差 平 方 和 更 合适 。 本 章 还 用 贝 叶 斯 的 手段 分 析 了 决策 树 的 归纳 偏 置 , 即 优选 最 短 的 决 策 树 , 于 
考查 了 密切 相关 的 最 小 描述 长 度 ( Minimum Description Length) AW. SUTRA EA 
了 解 对 理解 和 刻画 机 岩 学 习 中 许多 算法 的 操作 很 重要 。 
内 叶 斯 学 习 方 法 的 特性 包括 ; 
e 观察 到 的 每 个 训练 样 俩 可 以 增 量 地 降低 或 升 高 某 假设 的 佑 计 酸 率 。 这 提供 了 一 种 比 其 
他 算法 更 合理 的 学 习 途 径 。 其 他 算法 会 在 某 个 假设 与 任 一 样 俩 不 一 致 时 完全 去 掉 该 假 
设 。 
e 先 验 知识 可 以 与 观察 数据 一 起 决定 假设 的 最 终 概 率 。 在 贝 叶 斯 学 习 中 , 先 验 知识 的 形 
式 可 以 是 :(1) 每 个 候选 假设 的 先 验 概 率 ;(2) 每 个 可 能 假设 在 可 观察 数据 上 的 概率 分 
布 。 
e 贝 叶 斯 方法 可 允许 假设 做 出 不 确定 性 的 预测 (比如 这 样 的 假设 :这 一 肺炎 病人 有 93 % 
的 机 会 康复 )。 
© 新 的 实例 分 类 可 由 多 个 假设 一 起 作出 预测 ,用 它们 的 概率 来 加权 。 
e 即使 在 贝 叶 斯 方法 计算 复杂 度 较 高 时 ,它们 仍 可 做 为 一 个 最 优 的 决策 的 标准 衡量 其 他 
方法 。 
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在 实践 中 应 用 内 叶 斯 方法 的 难度 之 - 开 于 ,它们 需要 概率 的 初始 知识 。 当 这 些 概率 预先 
未 知 时 ,可 以 基于 背景 知识 . 贰 先 淮 备 好 的 数据 以 及 关于 基准 分 布 的 假定 来 估计 这 些 概率 。 另 
一 -个 实际 困难 在 于 ,一 般 情 哆 下 确定 贝 叶 斯 最 优 假设 的 计算 代价 比较 大 ( 同 伐 选 假设 的 数量 成 
线性 关系 )。 在 某 些 特定 情形 下 ,这 种 计算 代价 可 以 被 大 大 降低 。 

水 章 剩余 部 分 的 组 成 如 下 。 第 6.2 节 介 绍 了 贝 时 斯 理 沦 ,并 定义 了 极 大 似 然 (maximum 
likelihood) (Rif AE A Ja 38 HARA AZ (maximum a posteriori probability hypotheses) a 接 下 来 的 
四 放 将 此 福 率 框 浊 应 用 于 分 析 前 面 音节 的 相关 问题 和 学 习 算 法。 例如 ,我 们 证 明了 在 特定 前 
提 下 , 几 种 前 述 的 算法 能 输出 极 大 似 然 假设 . 剩余 的 几 节 则 介绍 了 几 种 直接 操作 概率 的 学 习 
算法 。 包括 贝 叶 斯 最 优 分 类 器 Gibbs 算法 和 朴素 贝 叶 斯 分 类 器 。 最 后 ,我 们 讨论 了 贝 叶 斯 信 
念 网 , 它 是 一 种 基于 概率 推理 的 较 新 的 学 半 方 法 和 EM 算法 ,是 当 存 在 未 知 变量 时 被 ) 泛 使 用 
的 学 习 算 法 。 


6.2 由 时 斯 法 出 


在 机 器 学 习 中 ,通常 我 们 感 兴 趣 的 是 在 给 定 训练 数据 D 时 ,确定 假设 空间 A 
设 。 所 谓 最 佳 (best) 假 设 , 一 种 办 法 是 把 它 定义 为 在 给 定数 据 DUR H 中 不 同 假 设 的 先 验 概 
率 的 有 关 知 识 下 的 最 可 能 (most probable) 假 没 。 贝 叶 斯 理论 提供 了 ~- 种 直接 计算 这 种 可 能 性 
的 方法 。 更 精确 地 讲 , 贝 叶 斯 法 则 提供 了 … 种 计算 假设 概率 的 方法 , 它 基 于 假设 的 先 验 概率 、 
给 定 和 假设 下 观察 到 不 同 数据 的 概率 以 及 观察 到 的 数据 本 身 ， 

要 精确 地 定义 贝 叶 斯 理论 要 先 引 入 一 些 记 导 。 我 们 用 P{5) 来 代表 在 没有 训练 数据 前 假 
设 衣 拥有 的 初始 概率 。P( 上 ) 常 被 称 为 bh 的 先 验 概率 (prior probability ), ERT RAH 
有 的 关于 是 一 正确 很 设 的 机 会 的 背景 知识 。 如 果 没 有 这 一 先 验 知识 ,那么 可 以 简单 地 将 每 
一 候选 假设 冉 子 相同 的 先 验 概 率 。 类 似 ,可 用 P(D) 代 表 将 要 观察 的 训练 数据 D 的 先 验 概率 
(换言之 ,在 没有 确定 某 一 假设 成 立时 D 的 概率 )。 下 ~- 步 ,以 PCDI ARERI k AAE 
形 下 观察 到 数据 D 的 概率 。 一 般 情况 下 ,我 们 使 用 P(x1y}) 代 表 给 定 y 时 x 的 概率 。 在 机 器 
学 习 中 ,我 们 感 兴趣 的 是 PChR1D), 即 给 定 训练 数据 D 时 上 成立 的 概率 。P(h1D) 被 称 为 上 
的 后 验 概率 (posterior probability) ,因为 它 反 映 了 在 看 到 训练 数据 D 后 h RAAE., E 
意 ,后 验 概率 PIDE TIES D 的 影响 ;相反 , 先 验 概 率 P(A) 是 独立 于 D 的。 

见 叶 斯 法 则 是 贝 叶 斯 学 习 方 法 的 基础 ,因为 它 提 供 了 从 先 验 概率 PRAA PCD) 
PC DIA) HTSUS SRE P(h1D) 的 方法 。 

贝 叶 斯 公式 : 

(hip) = PDI DLE) 6.1) 


从 直观 土 可 以 看 出 , P(h1D) 随 着 PA P(D1h) 的 增长 而 增长 ;同时 也 可 看 出 
P(A DBE PLD) 的 增加 而 减少 。 这 是 很 合理 的 ,因为 如 果 D 独立 于 有 时 被 观察 到 的 可 能 性 
越 大 ,那么 D 对 的 支持 度 越 小 。 

在 许多 学 习 场 景 中 ,学习 器 考虑 候选 假设 集合 HH 并 在 其 中 寻找 给 定数 据 D 时 可 能 性 最 
大 的 假设 hE FH{ 或 者 存在 多 个 这 样 的 假设 时 选择 其 中 之 一 }。 这 样 的 县 有 最 大 可 能 性 的 假设 
被 称 为 极 太 后 验 {maximum a posteriori, MAP) 和 假设 。 确 定 MAP 假设 的 方法 是 用 中 叶 斯 公式 
计算 每 个 候选 假设 的 后 验 概率 。 更 精确 地 说 ,当下 式 成 立时 , 称 hu4pP 为 MAP 假设 : 
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huap = argmaxP( h iD) 
PI Dih) PCA) 
P(D) 


ae 
= argmaxP(D!h) PCA) (6.2) 
注意 ,在 最 厂 - - 步 我 们 去 挥 了 PCD), 因 为 它 是 不 依赖 于 上 AAE, 
在 革 些 情 总 下 ,可 假定 H 中 每 个 假设 有 相同 的 先 验 概率 ( 即 对 H 中 任意 六 AA, PCR) 
= P{h))。 这 时 可 把 等 式 (6.2) 进 一 步 简 化 ,只 需 考 虑 PLD1 有 ) 来 寻找 极 大 可 能 假设 . 
PIDIERA E 天 时 数据 万 的 似 然 度 (likelihood) ,而 使 P(D1h}) 最 大 的 假设 被 称 为 极 
kt % (maximum likelihood, ML)(RE hure 
hay, =argmaxP( DIh) (6.3) 
NOY CE MES ela Hd el aR A RES D PK TESS Bb R i AA a, 
而 把 H PR Abe El tr pees la]. ERE, DAP Be A AE ANRE, E PHH AR i 
地 用 于 任意 互 斥 命题 的 集合 如 ,只 要 这 些 命题 的 概率 之 利 为 1( 例 如 , “天空 是 蓝 色 的 "和 ”天宝 
AE VLAN"). BEARD A 作为 包 售 日 标 晤 数 的 假 讶 空间 ,而 事 作 为 训练 梓 例 集合 ， 
其 他 -一 些 时 候 考 虑 将 吾 看 作 一 些 互 斥 命题 的 集合 ,而 五 为 基 种 数据 。 


举 讽 
为 说 明 贝 叶 斯 规则 ,可 考 虚 一 个 医疗 诊断 问题 ,其 中 有 两 个 可 选 的 假设 :(1) 策 人 有 条 种 类 
型 的 癌 证 (2) 病 人 无 癌症 。 可 用 的 数据 来 日 于 某 化 验 测 试 , 它 有 两 种 可 能 的 输出 :由 { 正 ) 和 
OCA). 我 们 有 先 验 知 识 : 在 所 有 人 口中 只 有 0.008 NAR ARB. ob ZEREAL eE 
该 类 的 一 个 不 完全 的 预 法 。 该 测试 针对 确实 有 炳 的 患者 有 98% BAYT BE TE Ll GSR | TAT 
LRRD BSAA 97% HA PEER ROR. 除 此 以 外 .测试 返回 的 结果 是 错误 的 上面 的 
情况 可 由 以 的 概率 式 概括 ; 
PC cancer) =0.008, P{— cancer ) =0.992 
P(@i cancer} =0.98, P{Oleancer) =0.02 
Pii cancer) =0.03, PCO! cancer) = 0.97 
ea PA ART OBR. BANC ABE AA IED? 极 太 后 验 
假设 可 用 式 (6.2) 来 计算 : 
PCO cancer) PC cancer} = (0.98) x (0.008) = 0.0078 
P( | — cancer) PC cancer) = (0.03) x (0.992) = 0.0298 
因此 ,hyap = 一 cancer。 确 切 的 后 验 概率 可 将 上 面 的 结果 归 一 化 以 使 它们 的 和 为 1 
( 即 PCcancer |®) = 9 -50 soa =0.21)。 该 步骤 的 根据 在 于 . 贝 叶 斯 公式 说 明 后 验 概率 
Oe LAR PCO). BR 已 外) 没有 作为 问题 陈述 的 一 部 分 直接 给 出 ,但 因为 已 知 
P( cancer |) PO cancer IA R a AE ZAR ,要么 没有 ) ,因此 可 以 进 
行 归 一 化 。 注 意 ,虽然 有 闯 症 的 后 验 概率 比 先 验 概率 要 大 ,但 最 可 能 的 假设 仍 为 此 人 没有 癌 


钙 。 
如 工 例 所 示 , 贝 叶 斯 推理 的 结果 很 大 程度 上 依赖 于 先 验 概 率 , 要 直接 应 用 该 方法 必须 先 获 
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取 该 值 。 还 要 注意 该 例 中 并 没有 完全 地 接受 或 拒绝 假设 ,而 只 是 在 观察 到 较 多 的 数据 后 增 大 
或 减 小 了 假设 的 可 能 性 。 
计算 概率 的 基本 公式 在 表 6-1 中 列举 。 
R6-1 基本 概率 公式 衷 
@ SIEM (Product rue): PRE A 和 上 8 的 交 的 概率 PCA AB) 
PCAMB)= PCAIB)P(B) = PCBIA)PCA) 
@ 加 法 规则 (Sum rule): PSE 4 AR FER PC AV B) 
PCAV B)= P(A) + PCB}- PCAAB) 
大 lt SSE All Bayes theorem) :给 定 呈 时 上 的 后 验 概率 Pth1D) 
POhID) = PLDT 
© 全 概率 法 则 {Theorem of total prohability): 如 果 事 件 4，，.,.，4, BRAD)” PCA) = 1, 则 ， 


P(B) = SIP(BIA,)PCA,) 
ixl 


6.3 贝 叶 斯 法 则 和 概念 学 习 


贝 叶 斯 法 则 和 概念 学 习 问 题 的 关系 是 什么 呢 ? 因为 由 叶 斯 法 则 为 计算 给 定 训练 数据 下 任 
一 假设 的 后 验 概率 提供 了 原则 性 方法 ,我 们 可 直接 将 其 作为 一 个 基本 的 学 习 算 法 ,计算 每 个 假 
设 的 概率 ,再 输出 其 中 概率 最 大 的 。 本 节 考 虚 了 这样 一 个 BRUTF-FoncE 内 叶 斯 概念 学 习 算 
法 ,然后 将 其 与 第 2 章 介绍 的 概念 学 习 算法 相 比 较 。 通 过 比较 可 以 看 到 一 个 有 趣 的 结论 , 即 在 
特定 条 件 下 ,前 面 所 到 的 几 种 算法 都 输出 与 Brute-Force 贝 叶 斯 算法 相间 的 假设 ,只 不 过 前 
而 的 算法 不 明确 计算 概率 ,而 且 在 相当 程度 上 效率 更 高 。 


6.3.1 Baue- Fo 贝 叶 斯 概念 学 习 


考虑 第 2 音 首 先 提 到 的 概念 学 习 问 题 。 其 中 ,我 们 假定 学 习 器 考虑 的 是 定义 在 实例 空间 
无 上 的 有 限 的 假设 空间 电 , 任 务 是 学 习 某 个 目标 概念 c: 工 一 i0,11。 假 定 给 予 学 习 器 某 训 练 
样 例 序 列 人 (xd yx da AEB x, AX 中 的 某 实例 , d 为 的 目标 函数 值 ( 即 d; = 
c(x,))。 为 简化 讨论 ,假定 实例 序列 (x1… xn 是 固定 不 变 的 ,因此 训练 数据 D 可 被 简单 地 写 
作 晶 标 函数 值 序列 :DD = 《di…d。)。 可 以 看 到 (见习 题 6.4) ,这 一 简化 不 会 改变 本 节 的 主要 结 
论 。 

基于 贝 叶 斯 理论 ,我 们 可 以 设计 一 个 简单 的 概念 学 习 算 法 来 输出 最 大 后 验 假 设 。 如 下 : 

Brute-Force MAP 学 避 算 法 

1) 对 于 A PREMERA HR wee: 


2) 输出 有 最 高 后 验 概率 的 假设 huar: 
huap = arg maxP( Al D) 


此 算法 需要 较 大 的 计算 量 , 因为 它 对 A 中 每 个 假设 都 应 用 了 贝 叶 斯 公式 以 计算 
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严 ( 天 | 六 )。 虽 然 这 对 于 大 的 假设 空间 显得 不 切实 际 ,但 该 算法 仍然 值得 关注 ,因为 它 提供 了 一 
个 标准 以 判断 其 他 概念 学 习 算 法 的 性 能 。 

下 面 为 BRUTE-FoRcE MAP 学 习 算法 指定 了 一 学 习 疝 题 ,我 们 必须 确定 PCA) A PC DIA) 
分 别 应 到 和 何 值 ( 可 以 看 出 , PC(D) 的 什 依 这 两 者 而 定 )}。 我们 可 以 以 任意 方法 选择 PA) 和 
P(D1h) 的 概率 分 布 ,以 措 述 该 学 习 任 务 的 先 验 知识 。 这 里 令 其 与 下 面 的 前 提 一 致 : 

1) 训练 数据 D ERRA CBA od; = el x;)); 

2) 目标 概念 c BAERS A; 

3) 没有 任何 理由 认为 某 假设 比 其 他 的 假设 的 可 能 性 大 。 

有 了 这 些 假定 ,如 何 确 定 P OREW? 由 于 任 一 假设 不 比 其 他 假设 可 能 性 大 ,很 显然 可 
MA 中 每 个 假设 4 赋予 相同 的 先 验 概率 。 进 一 步 地 ,由 于 日 标 概念 在 H 中 ,所 以 可 要 求 H 
中 所 有 假设 的 概率 和 为 1。 将 这 些 限制 合 起 来 可 得 : 


P(h) =H 对 H pE- h 

如 何 选 择 P DIARI? P DIR RECHE h REKRITE k ABE 
& ¢ 的 正确 描述 ) 观 察 到 目标 值 D=(d,...d, AE. H PRE IARAA ,那么 给 定 
时 ,如 果 d= hlao UE d, 为 1, 如 果 dihi x H d; AO, WA: 

1 如 果 对 D PATE d;,d,; = h(x.,) 
ODEN RUR (6.4) 

换言之 AR hE D 与 假设 一 - 致 时 概率 第 为 1, 否则 值 为 0。 

有 了 POM PLD14) 的 值 ,现在 我 们 对 于 上 面 的 BRUTE - Force MAP 学习 算法 有 了 - 
个 完整 定义 的 问题 。 接 下 来 考虑 该 算法 的 第 一 步 , 使 用 贝 叶 斯 公式 计算 每 个 假设 h 的 后 验 概 
率 P(htD): 

_ PCDIA)P(A) 
P(hID) = PT 有 


首先 ,考虑 4 与 训练 数据 DD A-RA. HFARO6ODeER4 ASD 不一致 时 
P(DIADAO,A: 


PC AID) = RA =0 4 与 万 不 一 致 时 

与 D 不 一 致 的 假设 的 后 验 概率 为 0。 

再 考虑 上 与 DD 一 致 的 情况 。 岂 于 式 (6.4) 定 义 当 与 DD 一 至 时 P(tDIh) 为 1, 有 : 
1 

IHI 

PCD) 


—_— 





PCRAID) = 


= TVS, 01 X h 5D 一致 时 
其 中 , VSy pÆ H P5D RAR TRE VSy,p 是 关于 D 的 变型 空间 ,如 第 2 章 的 定 


义 )。 很 容易 验证 P(D) = TSL! ,因为 在 所 有 假设 上 PCh1D) 的 和 必 为 1, 并且 A H D 
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— Be HERE Sy p1。， 另 外 ,可 从 全 概率 公式 ( 见 表 6-1) 以 及 所 有 假设 是 互 斥 的 条 件 
(BIC Y i j)( PCA; A hi) =0) HEH PCD) AE: 
P(D)= > P(D | hO PCA 
AEH 





= b> E > Ox 





pew ig. WL” pees | Ht 
4 ] 

= oa! * TH] 

= | VSy a | 

= | H | 

总 而 言 之 , 贝 叶 斯 公式 说 明 ,在 我 们 的 POOR PC(D18) 的 定义 下 ,后 验 概 率 Phi DA: 

1 

7 ae 如 果 与 DD 一致 

-d| VS pl 


0 
其 中 ,1 YSr pl 是 A PSD 一 致 的 假设 数量 。 假 设 的 概率 演化 情况 如 图 6-1 Pras. Bee 
时 ( 见 图 6-1a) 所 有 假设 具有 相同 的 概率 。 当 训练 数据 逐步 出 现 后 ( 见 图 6-1b 和 6-10) ,不 一 致 
假设 的 概率 变 为 0, 而 整个 概率 的 和 仍 为 1 ,它们 的 匀 地 分 布 到 剩余 的 一 致 假设 中 。 


Pik) P(HDL PhD, D2) | 
Riz Eit iit 
a) b} c) 


时 对 每 个 假设 赋予 均 与 的 先 验 概率 。 当 训练 数据 首先 增长 到 D1h), 热 后 增长 到 DLA 
D2 四 时 ,不一致 假设 的 后 验 概率 变 成 0, 而 保留 在 变型 空间 中 的 恨 设 的 后 验 概率 增加 
图 5-1 后 验 概率 随 着 训练 数据 增长 的 演化 


上 面 的 分 析 说 明 ,在 我 们 选 定 的 P(A) 和 P(D1k}) 取 值 下 ,每 个 一 致 的 假设 后 验 概率 为 
(1/1 VSy op1) ,每 个 不 一 致 假设 后 验 概 率 为 0。 因 此 ,每 个 一 致 的 叙说 都 是 MAP Bit. 


6.3.2 MAP MRAN- REA 


上 面 的 分 析 说 明 在 给 定 条 件 下 ,与 D 一 致 的 每 个 假设 都 是 MAP 假设 。 根 据 这 一 结 沦 可 
直接 得 到 一 类 普遍 的 学 习 器 , 称 为 一 致 学 习 Æ (consistent learner). EA 算法 被 称 为 一 致 学 
习 器 ,说 明 它 输 出 的 假设 在 训练 样 例 上 有 零 错 误 率 。 由 以 上 的 分 析 可 得 ,如 果 假定 H 上 有 均 
HARRE Ph) = PCA) ,对 所 有 的 ij), LORE EE fo RA GCH D 
fo h -KNH,P(DIA) = 上 ,否则 为 0) 时 , 任 恋 一 致 学 习 器 将 输出 一 个 MAP 假设 。 

例如 第 2 章 讨论 的 FIND-S 概念 学 习 算 法 。FINp - S 按照 特殊 到 一 般 的 疾 序 搜索 假设 空间 
H 并 输出 一 个 极 大 特殊 的 -一致 假设 ,因此 可 知 在 上 面 定义 的 P(A) 和 PCLD1k) 概 率 分 布下 ， 
它 输 出 MAP 假设 。 当 然 ,FINDp-S 并 不 直接 操作 概率 , 它 只 简单 地 输出 变型 空间 的 极 大 特殊 成 
员 。 然 而 ,通过 决定 P(A) P(D1h) 的 分 布 ,以 使 其 输出 为 WAP 假设 ,我 们 有 了 一 种 刻画 
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FINp-S 算 法 的 有 效 途 径 。 

是 否 还 有 其 他 可 能 的 PCR) Al PCD) h)a, {E Finn-S 输出 MAP 假设 呢 ? 回 管 是 肯定 
的 。 因 为 FINp-S 从 变型 空间 中 输出 极 大 特殊 (maximally specific HR i, Pre AI F A Ee 
祖 于 更 特殊 假设 的 尾 何 概率 分 布 , 它 输 出 的 假设 都 将 是 MAP 假设 。 更 精确 地 讲 RO ae H 
上 和 任意 概率 分 布 PC(h), 它 在 E hi 更 特殊 时 赋予 P(A ) Se Pih). 可见 ,在 假定 有 先 验 分 
AAAS EHHH PCLD14) 分 布 时 ,Finp-5 输出 一 MAP 假设 。 

概括 以 上 讨论 , 岁 叶 斯 抠 架 提出 了 一 种 刻画 学 习 算法 (如 Finp-5 算法 ) 行 为 的 方法 ,期 便 
该 学 习 算 法 不 进行 概率 操作 。 通 过 确定 算法 输出 最 优 ( 如 MAP) 假 设 时 使 用 的 概率 分 布 己 ( 产 ) 
和 PC(D1A), 可 以 刻画 出 算法 具有 最 优 行为 时 的 隐 合 假定 。 

使 用 贝 叶 斯 方法 刻画 学 习 算 法 ,与 揭示 学 习 器 中 的 归纳 偏 置 在 思想 上 是 类 似 的 。 注 意 ,在 
第 2 章 将 学 习 算法 的 归纳 偏 置 定义 为 断言 集合 BB, 通过 它 可 充分 地 演绎 推断 出 学 习 器 所 执行 
的 归纳 推理 结果 。 例 如 ,候选 消除 算法 的 归纳 妨 置 为 :假定 上 生 标 概念 “ 包含 在 假设 空间 日 中 ， 
我 们 还 将 进一步 证 明 学 习 算法 的 输出 是 由 其 输入 以 及 这 一 隐 含 的 归纳 偏 置 假定 所 演绎 得 出 
的 。 土 面 的 贝 时 斯 解释 对 于 描述 学 习 算法 中 的 隐 舍 假定 提供 了 另 一 种 方法 。 这 里 ,不 是 用 一 
等 效 的 演绎 系统 去 对 归纳 推理 建 模 , 而 是 用 基于 贝 叶 斯 理论 的 一 个 等 效 的 概率 推理 (proba- 
bilistic reasoning) 系统 来 建 模 。 这 里 的 隐 含 假定 形式 为 :“ A ERR RSH Pi 五 ) 分 布 给 出 y 
而 数据 拒绝 或 接受 假设 的 强度 由 POIR AR. EBA POA PCDI A) XA T EW 
除 和 FIND-5 系统 中 的 隐 含 假定 。 在 已 知 这 些 假定 的 概率 分 布 后 ,一 个 基于 页 叶 斯 理论 的 概率 
推理 系统 将 产生 等 效 于 这 些 算法 的 输入 -输出 行为 。 

本 节 中 所 讨论 的 是 贝 叶 斯 推理 的 一 种 特殊 形式 ,因为 我 们 只 考虑 了 P(DIA) 取 值 只 能 为 
0 或 1 的 情况 , 它 反 映 了 假设 预测 的 确定 性 以 及 无 队 声 数据 的 前 提 。 如 后 一 节 所 示 , 还 可 以 通 
过 介 许 PLCD1h) 取 值 为 0 和 1 之 外 的 值 以 及 在 PCD15) 中 包含 附加 的 描述 以 表示 了 曲 声 数据 的 
分 布 情况 ,来 模 所 从 有 际 声 训练 数据 中 学 习 的 行为 。 


6.4” 极 大 似 然 和 最 小 误差 平 方 假设 


如 土 节 所 示 , 贝 叶 斯 分 析 可 用 来 表明 一 个 特定 学 习 算 法 会 输出 MAP 假设 ,即使 该 算法 没 
有 显 式 地 使 用 贝 叶 斯 规则 ,或 以 某 种 形式 计算 概率 。 

本 节 考 虑 学 习 连 续 值 目标 函数 的 问题 ,这 是 在 许多 学 习 算法 中 都 会 遇 到 , 如 神经 网 络 学 
习 线性 回归 以 及 多 项 式 暴 线 拟 合 。 通 过 简单 的 贝 叶 斯 分 析 , 可 以 表明 在 特定 前 提 下 , 任 一 党 
习 算 法 如 果 使 痊 出 的 假设 预测 和 训 妹 数据 之 间 的 误差 平方 最 小 化 , 它 将 输出 一 起 大 似 杖 假设 。 
这 一 结论 的 意义 在 于 ,对 于 许多 神经 网 络 和 曲线 拟 合 的 方法 ,如 果 它 们 试图 在 训练 数据 上 使 误 
差 平方 和 最 小 化 ,此 结论 提供 了 一 种 贝 叶 斯 的 论证 方法 (在 特定 前 提 『)。 

设想 问题 定义 如 下 ,学 习 器 工作 在 实例 空间 X 和 假设 空间 下 上 ,五 中 的 假设 为 X EE 
义 的 某 种 实数 值 水 数 (部 PE Rh: 一 爱 其 中 , 铬 代 表 实 数 集 )。 工 面临 的 问 
题 是 学 习 一 个 从 豆 中 抽取 出 的 未 知 目标 函数 XB 给 定 m 个 训练 样 例 的 集合 ,每 个 样 例 
的 目标 值 被 某 随 机 又 声 干扰 ,此 随机 噪声 服从 正 态 分 布 。 更 精确 地 讲 , 每 个 训练 样 例 是 序 侦 
(x;, d;) ,其 中 di = f(a) teo 这 里 jz) 是 目标 函数 的 无 噪声 值 , 6; 是 一 代表 噪声 的 随机 
FE, BE 6; 的 值 是 独立 抽取 的 ,并 且 它 们 的 分 布 服 从 零 均 值 的 正 态 分 布 。 学 习 器 的 任务 是 
在 所 有 假设 有 相等 的 先 验 概率 前 提 下 ,输出 极 大 似 然 假设 ( 即 MAP REE). 
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虽然 我 们 的 分 析 应 用 于 任意 实数 值 函 数学 习 , 但 可 以 用 一 个 简单 的 例子 来 描述 这 一 问题 ， 
即 学 习 线 性 函数 。 图 6-2 所 示 为 一 线性 目标 函数 f( 以 实 线 表示 ), 以 及 该 目标 函数 的 有 噪声 
训练 样 例 集 。 虚 线 对 应 有 最 小 平方 训练 误差 的 假设 hi ,也 即 极 大 似 然 心 设 。 注 意 ,其 中 极 大 
似 然 假设 不 一 定 等 于 正确 假设 六 ,因为 它 是 从 有 限 的 带 噪 声 数据 中 推论 得 出 的 。 

这 里 的 误差 平方 和 最 小 的 假设 即 为 极 大 
似 然 假设 。 为 说 明 这 一 点 ,首先 快速 地 回 喘 
一 二 统计 理论 中 的 两 个 基本 概念 :概率 密度 
和 正 态 分 布 。 首 先 ,为 讨论 像 e 这 样 的 连续 
变量 上 的 概率 ,我 们 引 人 概 率 密度 (probabili- 
ty density). fF PA ARE , FR A he Se BL AE 
量 所 有 可 能 值 的 概率 和 为 1。 由 于 变量 是 连 
续 的 ,因此 不 能 为 随机 变量 的 无 限 种 可 能 的 
值 赋予 有 限 概 率 。 这 里 需要 用 福 率 密度 来 代 
替 , 以 使 e 这 样 的 连续 变量 在 所 有 值 上 的 概 
率 密度 的 积分 为 1。 一 般 地 ,用 小 写 子 母 p 
来 代表 概率 密度 函数 ,以 区 分 有 限 概率 PC HRAN /对 应 实 线 。 WEWER, d) HA 
和 时 又 为 本 pmibliy mos) SOMME Samus as «Se 
率 密度 p(x0) 是 当 。 EF OR, s 取 什 在。 5 个 训练 样 全 下 的 极 大 似 然 银 设 hu 
[xo，x*o+e) 区 提 内 的 概率 与 1/e HARM 图 6.2 学 习 革 实 值 函数 
限 





概率 密度 函数 : 
p( xo) =lim SP xo x xotg) 


其 次 ,这 里 断定 随机 噪声 变量 。 由 正 态 分 布 生 成 。 正 态 分 布 是 一 个 平滑 的 钟 形 分 布 , 它 可 
由 其 均值 上 和 标准 差 o 完全 刻画 。 见 表 5-4 中 的 精确 定义 。 

有 了 以 上 的 两 个 概念 ,再 来 讨论 在 我 们 的 问题 里 为 什么 最 小 误差 平方 假设 实际 上 就 是 极 
大 似 谎 假设 。 证 明 的 过 程 先 使 用 前 面 的 式 (6.3) 的 定义 来 推导 极 大 似 然 假设 ,但 使 用 小 写 的 p 
代表 概率 密度 : 

hus = argmax p{ D (A) 

AUB DER AE — HE A VARA i... em), iE SA A H PREFA D = 
(d,...dmdo 这 里 dj = fh x) + eio 假定 训练 样 例 是 相互 独立 的 ,给 定 k 时 ,可 将 PC DIA)® 
成 各 pldi h) WR: 

hat = argmax | | pl | h) 

如 果 误 差 e; 服从 零 均 值 和 未 知 方差 o HEB BAST d; 也 必须 服从 正 态 分 布 , 其 
方差 为 o2 WAV REM BR fA HARE OO). Bit, p (dl h) HA RS AT 
o2 BME = f(x;) 的 正 态 分 布 。 现 使 用 表 5-4 中 的 正 态 分 布 公式 并 将 相应 的 pe 和 a? 代 人 ,号 
出 描述 p (di14) 的 正 态 分 布 。 由 于 概率 d; 的 表达 式 是 在 为 目标 联 数 的 正确 描述 条 件 下 
的 ,所 以 还 要 替换 py = fli) = h(xi) ,从 而 得 到 : 
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es rrr. 
liye = arema j al ee 
Be 
= gmax [| -— aS 
现在 使 用 一 个 极 大 似 然 计算 中 常用 的 转换 :不 是 用 上 面 这 个 复杂 的 表达 式 取 最 大 值 ,而 是 
使 其 对 数 取 最 大 ,这 样 较 容易 。 原 因 是 lnp 是 p 的 单调 函数 ,因此 使 mp 最 大 也 就 使 p 最 大 : 





a i l DE S x) 
hur = argm 21 Fa zalh - AC x;)) 
此 表达 式 中 第 一 项 为 一 独立 于 AR, T BE Ah I 

hur = argmax 2 一 sald - h(x) 
使 一 个 质 的 量 最 大 等 效 于 使 相应 的 正 的 量 最 小 : 

hy = argmin >) vald; - h(x Y 
最 后 ,可 以 再 一 次 忽略 掉 与 A AKER, 
hue = argmin >) (d; ~ hix {6.6) 
ER ye] 


这 样 , 式 (6.5) 说 明了 极 大 似 然 假设 hy, A ESE d; 和 假设 预测 值 h(xi) 之 间 的 误差 
的 平方 和 最 小 的 那 一 个 。 该 结论 前 提 是 训练 值 d, 由 真实 目标 值 加 上 随机 踊 声 产生 ,其 中 随机 
噪声 是 从 一 零 均 值 的 正 态 分 布 中 独立 抽取 的 。 从 上 面 的 推导 中 可 明确 看 出 ,误差 平方 项 ( d; - 
hix) Y 从 正 态 分 布 定义 中 的 指数 项 中 得 来 。 如 果 假 定 噪 声 分 布 有 另外 的 形式 ,可 进行 类 似 
的 推导 得 到 不 同 的 缩 果 。 

注意 ,上 面 的 推导 包含 了 选择 假设 使 似 然 的 对 数值 (lnp (D14)) 为 最 大 ,以 确定 最 可 能 的 
假设 。 如 前 所 述 ,这 导致 了 与 使 p(D14) 这 个 似 然 性 最 大 化 相同 的 结果 。 这 一 用 对 数 似 然 性 
来 计算 的 方法 在 许多 贝 叶 斯 分 析 中 都 用 到 了 ,因为 它 比 直 接 计算 似 然 性 需要 的 数学 运算 量 小 
很 名 。 当 然 , 如 前 所 述 , 极 大 似 然 假设 也 许 不 是 MAP 假设 ,但 如 果 所 有 假设 有 相等 的 先 验 愉 
率 , 两 者 相同 。 

为 什么 用 正 态 分 布 来 描述 噪声 是 合理 的 ? 一 个 必须 承认 的 原因 是 为 了 数学 计算 的 简洁 性 ， 
男 一 原因 是 ,这 一 平滑 的 钟 形 分 布 对 许多 物理 系统 的 噪声 都 有 良好 的 近似 。 实 际 上 ,第 5 章 讨论 
的 中 心 极限 定律 显示 ,足够 多 的 独立 同 分 布 随机 变量 的 和 服从 一 正 态 分 布 , 面 不 管 独立 变量 本 身 
的 分 布 是 什么 。 这 说 明 由 许多 独立 同 分 布 的 因素 的 和 所 生成 的 噪声 将 成 为 正 态 分 布 。 当 然 ,在 
现实 中 不 同 的 分 量 对 几 声 的 贡献 也 许 不 是 朵 分布 的 ,这 样 该 定理 将 不 能 证 明 我 们 的 选择 。 

使 误差 平方 最 小 化 的 方法 经 常 被 用 于 神经 网 络 .曲线 拟 合 及 其 他 许多 实 函数 逼近 的 算法 
中 。 第 4 章 讨 论 了 梯度 下 降 方 法 , 它 在 神经 网 络 中 搜索 最 小 误差 平方 的 假设 。 

在 结束 这 里 关于 极 大 似 然 假设 和 最 小 平方 误差 假设 的 关系 的 讨论 之 前 ,必须 认识 到 该 问 
题 框架 中 的 某 些 限制 。 上 面 的 分 析 只 考虑 了 训练 样 例 的 目标 值 中 的 曲 声 ,而 没有 考虑 实 便 怖 
性 中 的 噪声 。 例 如 , 如 果 学 习 问 题 是 基于 某 人 的 年 龄 和 高 度 预 测 他 的 重量 ,那么 上 面 的 分 忻 要 
求 重量 的 测量 中 可 以 用 声 , 面 年 龄 和 高 度 的 测量 必须 是 精确 的 。 如 果 将 这 些 简化 假定 去 掉 ， 
分 析 过 程 将 十 分 复杂 。 


ww ai bbt.com PO0O0O0D0D0OO0O 





ROS RMT 12] 


eo maaa a a a a es A I oP ee Ny mm pe es a] ee eee 


6.5 用 于 预测 概率 的 极 大 似 然 假设 


在 前 一 节 的 问题 框 荣 中 ,我 们 确定 了 极 大 似 然 假设 是 在 训练 样 例 上 的 误差 平方 和 最 小 的 
假设 。 本 节 将 推导 一 个 类 似 的 准则 , 它 针 对 神经 网 络 学 习 这 样 的 问题 : 即 学 习 预 测 概率 。 

考虑 问题 的 框架 为 学 习 一 个 不 确定 性 (概率 的 ) 函 数 f; 了 ->10, 11, 它 有 两 个 高 散 的 值 输 
出 。 和 例如 ,实例 空间 X 代表 有 某 些 症 状 的 病人 ,目标 函数 F(x) 在 病人 能 存活 下 来 时 为 1, 否 
则 为 0。 或 者 说 ,站 代表 借 货 申请 者 ,表示 为 其 过 去 的 信用 历史 ,如 果 他 能 成 功 地 归还 下 一 次 
fe. FCx ) 为 1, 否则 为 0。 这 两 种 情况 下 都 要 六 有 不 确定 性 。 例 如 ,一 群 有 相同 症状 的 病人 
为 92 铝 可 以 存活 ,8 免 不 能 。 这 种 不 可 预测 性 来 源 于 未 能 观察 到 的 症状 特征 ,或 者 是 疾病 转化 
中 人 确实 存在 的 不 确定 性 机 制 。 无 论 问题 的 来 源 是 什么 ,结果 都 是 要 求 是 标 末 数 的 输出 为 输入 
的 概率 函数 。 

有 了 这 样 的 问题 描述 ,我 们 希望 学 习 得 到 的 神经 网 络 (或 其 他 实 函 数 通 近 器 ) 的 输 册 是 
六 zx)=1 的 概率 。 换 言 之 ,需要 找到 目标 函数 fp’ = X +0, 11, 使 f'=P(f(x)=1)., 在 上 面 
的 病人 存活 预测 的 例子 中 ,如 果 x 为 一 个 存活 率 是 92% 的 病人 ,那么 六 (xs)=0.92, 概 率 函 数 
FPCxz) 将 有 92 名 的 机 会 等 子 1, 剩 余 的 8% 的 机 会 等 于 0。 

如 何 使 用 一 个 神经 网 络 来 学 习 of UR? -个 很 明显 的 . 蛮 力 的 方法 是 首先 收集 对 x 的 每 
个 可 能 值 观 察 到 的 1 和 10 的 频率 ,然后 训练 神经 网 络 ,对 每 个 x 输出 目标 频率 。 下 面 将 见 到 ， 
我 们 可 以 直接 从 广 的 训练 样 例 中 训练 神经 网 络 ,而 且 仍 能 推导 出 f ' 的 极 大 似 然 假 设 。 

在 此 情 帝 下 为 寻找 极 大 似 然 假 设 , 应 使 用 怎样 的 优化 准则 呢 ? 为 回答 该 问题 ,首先 需要 获 
PCDI AWN. REVI D ERAD = |x dp (ay dam AT d, AR 
察 到 的 f(x;) 的 0 或 1 值 。 

回忆 前 一 节 中 的 极 大 似 然 及 最 小 误差 平方 分 析 , 其 中 简单 地 假定 实例 (41,… x 是 固定 
的 。 这 样 就 可 以 只 用 是 标 值 di 来 刻画 数据 。 虽 然 这 里 也 可 以 作 这 样 的 简单 假定 ,但 我 们 可 以 
避免 这 一 假定 以 说 明 这 对 最 后 的 输出 没有 影响 。 将 x; 和 d; 都 看 作 随 机 变量 ,并 假定 每 个 训 
练 样 例 都 是 独立 抽取 的 ,可 把 PCDI ASE: 


P(D (| A) = IH Pls d; | h) (6.7) 


朋 进 一 步 , 可 以 假定 遇 到 每 一 特定 实例 x, 的 概率 独立 于 假设 有 例如 ,训练 数据 集中 包 
含 一 特定 病人 x; 的 概率 独立 于 关于 存活 率 的 假设 (虽然 病人 的 存活 率 di; 确实 强烈 依赖 于 
h)。 当 x 独立 子 太 时 ,可 将 上 式 重 写 ( 应 用 表 6-1 的 情 法 规则 ) 为 : 


P(DIh) = [Í PCs, d; ih) = Il Pea: 1h, x;)PCx;) (6.8) 


现在 计算 在 假设 h BLS ARIE 对 一 个 实例 x; 观察 到 = | 的 概率 P(d;lh, xo TE 
E h 是 对 应 目标 阔 数 的 假设 , 它 正好 能 计算 这 一 概率 。 因 此 , P(d;=11h, xi)= hx), H. 
一 般 情况 下 : 


h(x;) 如 果 d;=1 
PAIR Gaa) mR da 0 2 
为 将 其 代入 到 式 (6. 中 中 求 PCD158) ,首先 将 其 表达 为 一 可 数学 操作 的 形式 。 
P(d,|h,«;) = 大 (和 有 (1 一 下 (全 并 一 本 (6.10) 
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容易 验证 ,等 式 (6.9) 和 (6.10) 是 等 价 的。 注意 , 当 d =1 时 , 式 (6.10) 中 第 二 项 等 于 1 。 
因此 P(d,=1lh, xj) = h(xi), 它 与 式 (6.9) 等 价 。 同 样 ,可 分 析 d; =0 时 的 情形 。 
将 式 (6.10) 代 换 式 (6.8) 中 的 Pl dilh，x;) 得 到 . 


P(D1 h) = [RDE - hla) PCa) (6.11) 
现 写 出 极 大 似 然 假 设 的 表达 式 : 
bis argmax || h(a;)4(1 - AC x;))!-4PC si) 
最 后 一 项 为 独立 于 上 的 常量 ,可 去 掉 , 得 到 : 
hyi = argmax | AC x a1 — Alx yh (6.12) 


及 46.12) 中 右边 的 表达 式 可 看 作 是 表 5-3 中 二 项 分 布 {Binomial distribution) 的 一 船 化 形 
式 。 该 式 描述 的 概率 相当 于 投掷 m 个 不 同 硬币 ,输出 得 到 《di .. .dy 的 概率 ,其 中 假定 每 个 
RET x; 产生 正面 的 概率 为 h(x;)。 注 意 表 5-3 描述 的 二 项 分 布 很 简单 ,但 它 附 吉 了 一 个 假 
定 , 即 所 有 谭 币 指出 正面 的 概率 是 相同 的 ( 即 h(x,) = AC a), Vi, 门 。 两 种 情况 下 我 们 都 候 
证 鱼 币 投 垃 的 输出 是 相互 独立 的 ,这 一 假定 适用 于 当前 的 问题 。 

本 前面 的 情况 相同 ,如 果 用 似 然 的 对 数 计算 会 比较 容易 ,得 到 : 


hyi = argmax >) djinh(x;) + (1 - d;)In€1 - A€x;)) (6.13) 


却 (6.13) 描 述 了 在 我 们 的 问题 中 必须 被 最 大 化 的 量 。 此 结果 可 与 前 面 的 使 误差 平方 最 小 
化 的 分 析 相 类 比 。 注 意 式 (6.13) 与 箭 函数 的 一 般 式 - D pilogp, ER 3 章 中 讨论 过 ) 的 相似 
TE. IER A ERHI, A EER AEA RRRA X (cross entropy). 


在 神经 网 络 中 梯度 搜索 以 达到 位 然 最 大 化 


上 面 讨论 了 使 式 (6.13) 中 的 量 最 大 化 可 得 到 极 大 似 然 假设 。 现 用 G, DRREE. 
本 节 沟 神经 网 络 学 习 推 导 一 个 权 值 训练 法 赠 , 它 使 用 梯度 上 升 以 使 Cih, DERA. 

如 第 4 章 中 的 讨论 , Gk, DRRR H Cik, D 关于 木 同 网 络 权 值 偏 导 的 向 量 给 出 ， 
它 乍 六 了 由 此 学 习 到 的 网 络 表示 的 假设 ALA 4 章 中 梯度 下 降 搜 索 的 一 般 讨 论 以 及 这 里 所 
使 用 的 术语 的 细节 )。 在 此 情况 下 ,对 应 于 权 值 w;( 从 输入 上 到 单元 门 的 G, DHAT 
Al: 

OG(h,D) _ Y， G(h,D) dhl x) 
Owe fy ORC x;) Owy 
> O(dlnk(«;) + (1 — djin(t - h(x.))) Oh x;) 
= ix] Əh x) Ow g 
d; = h{x;) Oh i) 
URG A) Gi, ory 
为 使 分 析 过 程 简 明 , 假 定神 经 网 络 从 一 个 单 层 的 sigmoid 单元 建立 。 这 种 情况 下 有 : 
a = o (Ki) Kix =h{x;)C- h(x;)) xin 


其 中 ,xu 是 对 第 ;个 样 例 的 到 单元 j 的 第 个 输出 , 面 w(x ) 为 sigmoid 挤 压 (amashing) 函 数 的 


m 
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导数 ( 见 第 4 章 )。 最 后 ,将 此 表达 式 代 入 到 等 式 (6.14), 可 得 到 组 成 梯度 的 导数 的 简单 表示 
人 = td eee 


因为 需要 使 PCDI se A 所 以 我 们 执行 梯度 上 升 搜索 而 不 是 梯度 下 降 

搜索 。 在 搜索 的 每 一 次 近代 中 , 权 值 向 量 按 梯度 的 方向 调整 ,使 用 权 值 更 新 法 则 : 
te g W ik + Aw x 
其 中 ， 
Aw, = PAC ~ hl xi)) Xis (6.15) 

其 中 ,? 是 一 小 的 正常 量 ， 表示 梯度 上 升 搜索 的 步 进 大 小 。 

将 这 一 权 值 更 新 法 则 与 反 向 传播 算法 (其 用 途 是 使 预 调 和 观察 的 网 络 输出 的 误差 平方 和 
最 小 化 ) 中 下 到 的 权 值 更 新 法 则 相 比 较 , 可 以 得 到 有 趣 的 结论 。 用 于 输出 单元 权 值 的 反 向 传播 
更 新 法 则 ( 见 第 4 章 ), 使 用 这 里 的 记号 可 重新 表示 为 : 


W ik wy, + Aw sy 


其 中 : 
wi = 0 h(a) = hla ) Cd; - ACx,)) wen 
注意 , 它 与 式 (6. 15) 中 的 法 则 相似 ,8 只 是 除了 一 项 AC x) (1 有 h(x;)), 它 是 sigmoid HA 
的 导数 。 


概括 一 下 ,这 两 个 权 值 更 新 法 则 在 两 种 不 同 的 问题 背景 下 收敛 到 极 大 似 然 假设 。 使 误差 
平方 最 小 化 的 法 则 和 寻找 到 极 大 似 然 假设 基于 的 前 提 是 ,训练 数据 可 以 由 目标 晃 数 什 加 上 正 态 
分 布 噪声 来 模拟 。 使 交叉 精 最 小 化 的 法 则 寻找 极 大 似 然 假设 基于 的 前 提 是 , 观察 到 的 布尔 值 
为 输入 实例 的 概率 函数 。 


6.6 最 小 描述 长 度 准 则 


回忆 一 下 第 3 章 关于 " 奥 坎 坦 剃 刀 ” 的 讨论 ,这 是 一 个 很 常用 的 归纳 偏 置 , 它 可 锌 概括 为 : 
“为 观察 到 的 数据 选择 最 短 的 解释 "。 本 章 我 们 要 讨论 在 对 奥 坎 埋 剃 刀 的 长 期 争论 中 的 几 个 论 
点 。 这 里 对 此 给 出 一 个 贝 叶 斯 的 分 析 , 并 讨论 一 紧密 相关 的 准则 , 称 为 最 小 描述 长 度 淮 网 
(Minimum Description Length, MDL), 
$e tH es FS BEY 的 是 为 了 杠 据 信息 论 中 的 基本 概念 来 解释 hwap 的 定义 。 再 次 考 
虑 已 很 熟悉 的 hya EA: 
hyap = argmax P( D | h)PCh) 
可 被 等 价 地 表示 为 使 以 2 为 底 的 对 数 最 大 化 : 
hap = al ra logs P¢ D | h) + log, P( h) 
或 使 它 的 负 值 最 小 化 : 
huap = argmin - log P( DIR) - log, PCA) (6.16) 
令 人 吃惊 的 是 , 式 {6.16) 可 被 解释 为 在 特定 的 假设 编码 表示 方案 上 “优先 选择 短 的 假充 。 
为 解释 这 一 点 , 先 引 入 信息 论 中 的 一 个 基本 结论 。 设 想 要 为 随机 传送 的 消息 设计 一 个 编码 ,其 


ww ai bbt.com PO0O0O0D0D0OO 





124 MAFF 
HB BAR i 的 概率 是 p;。 这 里 最 感 兴趣 的 是 最 简短 的 编码 ,有 妈 为 了 传输 随机 信息 所 需 的 最 
小 期 望 传送 位 数 。 显 然 ,为 使 期 望 的 编码 长 度 最 小 ,必须 为 可 能 性 较 大 的 消息 赋 子 较 短 的 纺 
Ho Shannon & 玉 eaver(1949) 证 明 最 优 编码 (使 得 期 望 消 息 长 度 最 短 的 编码 ) 对 消息 Ag 
KEA - log pi 位 。 使 用 代码 C 来 编码 消息 i SDR AH Ri ATC MEER. 
标记 为 Lc(i)。 
下 面 将 使 用 以 上 编码 理论 的 结论 来 解释 等 式 (6.,16); 
e -logsP{) 是 在 假设 空间 HARASS T h ARKE, 换言之 ,这 是 假设 六 使 用 其 
最 优 表 示 时 的 大 小 。 以 这 里 的 记号 ,Lc Ch) = - lop PCA). A, Cy WERZA H W 
最 优 编码 。 
$ -log PCDI AER ER hk 时 训练 数据 已 的 描述 长 度 ( 在 此 最 优 编码 下 )。 以 这 里 
的 记号 表示 ， Ec, ( Dih)= -lpPCDIA). AP Co 是 假定 发 送 者 和 接送 者 都 知道 假 
设 疡 时 摘 述 数据 只 的 最 优 编码 。 
© 因此 可 把 式 (6.16) 重 写 ,以 显示 出 hynp 是 使 假设 描述 长 度 和 给 定 假设 下 数据 描述 长 度 
之 和 最 小 化 的 假设 上 。 
wap = argmin Le Ch) the (Dih?) 


BA 


其 中 ,er A Cpa RA A ORAS BE bY D 的 最 优 编码 。 
最 小 描述 长 上 度 (Minimum Description Length，MDL) 准 则 建议 ,应 选择 使 这 两 个 描述 长 度 
的 和 最 小 化 的 假设 。 当 然 为 应 用 此 准则 ,在 实践 中 必须 选择 适合 于 学 习 任 务 的 特定 编码 或 表 
Fo BEWARE C 和 C 来 表示 假设 和 给 定 假设 下 的 数据 ,可 将 MDL 准则 陈述 为 ; 
最 小 描述 长 度 准 则 :选择 hay tt: 
hupi = argmin Le Ch) + Le Dik) (6.17) 


上 面 的 分 析 显 示 ,如 果 选 择 C0) 为 假设 的 最 优 编码 Cr ,并 且 选 择 C 为 最 优 编码 Coir, AR 
É hyn, = hyaAps 

从 直觉 上 讲 ,可 将 MDL 准则 想像 为 选择 最 短 的 方法 来 重新 编码 训练 数据 ,其 中 不 仅 计 算 
假设 的 大 小 ,并且 计算 给 定 假 疫 时 编码 数据 的 内 加 开销 。 

举例 说 明 ,假定 将 MDL 准则 应 用 到 梁 策 树 学 习 的 问题 当中 。 怎 样 选 择 假设 和 有 数据 的 表 
示 和 C, R? 对 于 C1, 可 以 很 自然 地 选择 某 种 明确 的 决策 树 编码 方法 ,其 中 描述 长 度 随 着 
树 中 节点 和 边 的 增长 而 增加 。 如 何 选择 给 定 一 决策 树 时 假设 的 编码 C2 W? 为 使 讨论 简单 
化 ,假定 实例 序列 《xi ... xn) 是 接收 者 和 发 送 者 都 知道 的 ,那么 可 以 只 传输 分 类 结果 < 了 (x1) 
...f(xn)){ 注 意 ,传送 实例 的 开销 独立 于 正确 的 贫 设 ,因此 它 不 会 影响 到 hyp HR). W 
在 ,如 果 训 练 分 类 《了 (x1).. ,了 (x) 与 假设 的 预计 相等 ,那么 就 没 必 要 传输 有 关 这 些 样 例 胸 
枉 何 信息 (接收 者 可 在 其 收 到 假设 后 计算 这 些 值 )。 因 此 在 此 情况 下 ,给 定 假设 的 分 类 情况 时 
的 描述 长 度 为 0。 如 果 某 些 样 例 被 A 误 分 类 ,那么 对 每 一 误 分 类 需要 传送 一 个 消息 以 确定 哪个 
样 例 被 误 分 类 了 (可 用 最 多 log m 位 传送 ) ,并 传送 其 正确 分 类 值 ( 可 用 最 多 logs 位 ,其 中 为 可 
能 分 类 值 的 数目 )。 在 编码 C 和 C 下 hwpr 这 一 假设 就 是 使 这 些 描 述 长 度 和 最 小 的 假设 。 

因此 , MDIL 准 则 提供 了 一 种 方法 以 在 假设 的 复杂 性 和 很 设 产生 错误 的 数量 之 间 进 行 折 


己 ” 央 站 传 辆 一 条 撒 寂 的 期 望 长度 为 忆 , - pilogzpi, 即 可 能 消息 集 台 的 妨 的 公式 {入 第 3 章 )。 
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中 , 它 有 可 能 选择 一 个 较 短 的 产生 少量 错误 的 假设 ,而 不 是 能 完美 地 分 类 训练 数据 的 较 长 的 假 
设 。 看 到 这 一 点 ,就 有 了 一 种 处 理 数 据 过 度 拟 合 的 方法 。 

Quinlan & Rivest(1989) 描 述 了 应 用 MDL 准则 区 选择 决策 树 最 佳 大 小 的 几 个 实验 。 报 告 
指出 基于 MDL 的 方法 产生 的 决策 得 的 精度 相当 于 第 3 章 中 讨论 的 标准 树 收 前 方法 。Mehta 
et al. (1995 FE T DP ET MDL 的 方法 进行 决策 树 收 前 ,经 实验 证 明 ,该 方法 得 到 的 结果 
与 标准 树 修 前 方法 相当 。 

从 最 小 描述 长 度 准 则 的 分 析 中 可 得 到 什么 结论 ? 是 否 说 明 所 有 情况 下 短 假 设 都 最 好 ? 结 
论 是 否定 的 。 已 经 证 明 的 只 是 ,当选 乍 假设 表示 以 使 假设 于 的 大 小 为 - lop PCA), FAG 
例外 情况 的 表示 以 使 给 定 天 下 万 的 编码 长 度 等 于 - log PC DIA) ET, MDL 准则 产生 MAP {EB 
设 。 然 而 为 说 明 以 上 两 者 可 以 如 此 表示 ,必须 知道 所 有 的 先 验 概 率 P OR PCDIAD, R 
有 理由 相信 MDL 假设 对 于 和 任意 编码 C M C 都 是 最 好 的 。 出 于 实际 的 考虑 ,更 容易 的 办 法 
是 由 设计 兰 指 定 一 个 表示 ,以 捕获 有 关 假 设 概率 的 知识 ,而 不 是 完整 地 指定 每 个 假设 的 概率 。 
SARA MDL 应 用 到 实际 问题 的 争论 ,主要 为 选择 Ci 和 C 编码 提供 某 种 形式 的 论证 。 


6.7 贝 叶 斯 最 优 分 类 器 


迄今 为 下 ,我 们 已 讨论 了 问题 “给 定 训练 数据 ,最 可 能 的 假设 是 什么 ?"。 实 际 上 ,该 问题 通 
常 与 男 一 葛 有 意义 的 问题 紧密 相关 , 即 “ 给 定 训练 数据 ,对 新 实例 的 最 可 能 分 类 是 什么 ?”。 昌 然 
可 看 出 第 二 个 问题 可 简单 地 由 应 用 MAP 假设 到 新 实例 来 得 到 ,实际 上 还 可 能 有 葛 好 的 算法 。 

为 了 更 直观 些 ,考虑 一 个 包含 三 个 假设 Ai hr h 的 假设 空间 。 假 定 已 知 训练 数据 时 三 
个 假设 的 后 验 概率 分 别 为 0.4,0.3,0.3。 因 此 ,1 为 MAP 假设 。 若 一 新 实例 x Wh 分 类 为 
IE ER h W hs 分 类 为 反 。 计 算 所 有 假设 ,x 为 正 例 的 概率 为 0.4( 基 与 hi 相 联 系 的 概率 )， 
而 为 反例 的 概率 是 0.6。 这 时 最 可 能 的 分 类 (反例 ) 与 MAP 假设 生成 的 分 类 不 同 。 

一 般 说 来 ,新 实例 的 最 可 能 分 类 可 通过 合并 所 有 假设 的 预测 得 到 ,用 后 验 概率 来 加 加。 如 
果 新 样 例 的 可 能 分 类 可 取 某 集合 V 中 的 任 一 值 w ,那么 概率 P(v;1D) 表 示 新 实例 的 正确 分 
类 为 Vi 的 概率 ,其 值 为 ; 

P(v, | D) = DPC, | hi) P(A; i D) 


新 实例 的 最 优 分 类 为 使 P(o,1D) 最 大 的 v; 值 。 
贝 叶 斯 最 优 分 类 器 : 
argmax >| PC», | A;) PCA; | D) (6.18) 
TEK REH 


用 上 面 的 例子 说 明 ,新 实例 的 可 能 分 类 集合 为 Y = 1, 昌 1, 面 : 
P( NI 万) =0.4， P(Olh)=0, P(@lAj)=1 
P(hz1D)=0.3, P(OlA,)=1, PC @lA2) =0 
P(hy1D)=0.3, P(Qth3)=1, P(@ih3) =0 
因此 : 
UPO hi) P(A, | D) = 0.4 


DP(OI h) PCA; 1 D) = 0.6 
KERK 
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并 且 ， 


argmax >, PCs, lA IPCAL l D =O 
6 €l@.Ol4,€8 


按照 式 (6. 18) 分 类 新 实例 的 系统 被 称 为 Rev RAD KH (Bayes optimal classifier ) 2% I 
HIRR. EAR Pe) Be 2 fd A Id) 7 ee , 2 HE LA IEE E 
好 。 该 方法 在 给 定 可 用 数据 ,假设 空间 及 这 些 假 设 的 先 验 概率 下 使 新 实例 被 正确 分 类 的 可 能 
性 达到 最 大 。 

例如 ,在 布尔 概念 学 习 间 题 中 ,使 用 前 面 章节 的 变型 空间 方法 ,对 一 新 实例 的 贝 叶 斯 最 优 
分 类 是 在 变型 空间 的 所 有 成 员 中 进行 加 权 选 举 获得 的 ,每 个 候选 假设 用 后 验 概率 加 权 。 

贝 叶 斯 最 优 分 类 器 的 一 个 极 有 趣 的 属性 是 , 它 所 做 的 分 类 可 以 对 应 于 H 中 不 存在 的 假 
设 。 设 想 使 用 式 (6.18) 来 分 类 X 中 每 个 实例 , 按 此 定义 的 实例 标注 不 一 定 对 应 于 H 中 的 任 
一 单个 假设 产 对 实例 的 标注 。 理 解 该 命题 的 一 种 方法 是 将 贝 叶 斯 分 类 器 看 成 是 不 同 于 假设 空 
间 H 的 另 一 空间 FH' ,在 其 上 应 用 中 叶 斯 公式 。 确 切 地 讲 , H' 有 效 地 包 售 了 一 组 假设 , 它 能 在 
H 中 多 个 假设 的 线性 组 合 所 作 的 预言 中 进行 比较 。 


6.8 GIBBS 算法 


ERIK UL SUT AA, oP ERS BE DA SE UI PR BE A ee FYE BE, WAEA I BAX 
原因 在 于 它 要 计算 H 中 每 个 假设 的 后 验 概率 ,然后 合并 每 个 假设 的 预 调 以 分 类 新 实例 。 

TRR JERAR EE Gibbs 算法 ( 见 Opper & Haussler 1991) ,定义 如 下 ， 

1) 按照 # 上 的 后 验 概率 分 布 , 从 #H 中 随机 选择 假设 有 。 

2) EH h 来 预言 二 一 实例 x 的 分 类 。 

当 有 一 待 分 类 新 实例 时 ,Gibbs 算法 简单 地 按照 当前 的 后 验 概率 分 布 使 用 一 随机 抽取 的 
假设 。 令 人 吃惊 的 是 ,可 证 明 在 一 定 条 件 下 Gibbs 算法 的 误 分 类 率 的 期 望 值 最 多 为 员 叶 斯 最 
优 分 类 器 的 两 倍 (Haussher et al. 1994)。 更 精确 地 讲 , 期 望 值 是 在 随机 抽取 的 目标 概念 上 作 
出 的 ,抽取 过 程 按照 学 习 回 假定 的 先 验 概 率 。 在 此 条 件 下 , Gibbs 算法 的 错误 率 期 望 值 最 差 为 
贝 叶 斯 分 类 器 的 两 倍 。 

该 结论 对 前 述 的 概念 学 习 问 题 有 一 个 有 趣 的 启示 , 即 如 果 学 习 器 假定 H 上 有 均匀 的 先 验 
概率 ,而 且 如 果 目 标 概念 实际 上 也 按 该 分 布 抽取 ,那么 当前 变型 空间 中 随机 抽取 的 假设 对 下 一 
实例 分 类 的 期 望 误差 最 多 为 贝 叶 斯 分 类 器 的 两 倍 。 这 里 又 有 了 一 个 岗子 说 明 册 时 斯 分 析 可 以 
对 一 种 非 贝 叶 期 算法 的 性 能 进行 评估 。 


6.9 朴素 贝 叶 斯 分 类 器 


贝 叶 斯 学 习 方 法 中 实用 性 很 高 的 一 种 为 朴素 贝 叶 斯 学 习 峰 , 常 被 称 为 村 素 贝 叶 斯 分 类 可 
{naive Bayes classifier)。 在 某 些 领域 内 其 性 能 可 与 神经 网 络 和 闫 策 树 学 习 相 当 。 本 节 人 介绍 杆 
素 贝 叶 斯 分 类 器 ,于 一 节 将 其 应 用 于 实际 的 问题 , 即 自然 语言 文本 文档 的 分 类 问题 。 

朴素 贝 叶 斯 分 类 器 应 用 药 学 习 任 务 中 ,每 个 实例 x 可 由 属性 值 的 合 取 描 述 ,而 目标 函数 
f(x) 从 菜 有 限 集合 Y 中 取 值 。 学 习 器 被 提供 一 系列 关于 目标 函数 的 训练 样 例 以 及 新 实例 
(描述 为 属性 值 的 元 组 )《a1, a2... a,) ,然后 要 求 预测 新 实例 的 目标 值 (或 分 类 )。 

贝 叶 斯 方法 的 新 实例 分 类 目标 是 在 给 定 描述 实例 的 属性 人 秆 (al, a2...a,) 下 ,得 到 最 可 能 
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的 且 标 值 UMAP So 
Umap = argmax Pi vilaj, az.. a, ) 
BAP ADL OPA iA eS N: 
P(a@),02..- anto) Po) 
k o P(a,,@)...4 } 


= argmaxP (a, , az... anl vj) P(o) (6.19) 


现在 要 做 的 是 基于 训练 数据 估计 式 (6.19) 中 两 个 数据 项 的 值 。 估 订 每 个 P o RAS, 
只 要 计算 每 个 目标 值 ”出 现在 训练 数据 中 的 频率 就 可 以 。 然 而 ,除非 有 一 个 非常 大 的 训练 数 
据 的 集合 ,否则 用 这 种 方法 估计 不 同 的 P(al, a2...as1v;) 项 不 太 可 行 。 问 题 在 于 这 些 项 的 
数量 等 于 可 能 实例 的 数量 乘 以 可 能 目标 值 的 数量 。 因 此 为 获得 合理 的 估计 ,实例 空间 中 每 个 
实例 必须 出 现 多 次 。 
朴素 贝 叶 斯 分 类 器 基于 一 个 管 单 的 假定 :在 给 定 目 标 值 时 属性 值 之 间 相 互 条 件 独立 。 换 
言 之 ,该 假定 说 明 在 给 定 实例 的 目标 值 情况 下 ,观察 到 联合 的 cl a2...4, 的 概率 等 于 每 个 音 
独 属 性 的 概率 乘积 : 
P{ ai, a2... an | vi) = I] PCs, | v,) 
将 其 代入 式 (6.19) 中 ,可 得 到 朴素 贝 叶 斯 分 类 器 所 使 用 的 方法 :; 
UNB = argmaxP( v;) || P(a; | wi) (6.20) 


其 中 ,swg 表 示 朴 素 贝 叶 斯 分 类 器 输出 的 目标 值 。 注 意 ,在 朴素 贝 叶 斯 分 类 器 中 , 须 从 训 
练 数据 中 估计 的 不 同 P( ail o ) 项 的 数量 只 是 不 同 的 属性 值 数量 乘 以 不 同 目标 值 数量 这 
比 要 估计 Plaaz... anl w ) 项 所 需 的 量 小 得 多 。 

概括 地 讲 , 朴 素 贝 叶 斯 学 习 方法 需要 估计 不 同 的 PC o,) A PCailv,) 项 ,基于 它们 在 训练 
数据 上 的 频率 。 这 些 估 计 对 应 了 待 学 习 的 假设 。 然 后 该 假设 使 用 式 (6.20) 中 的 规则 来 分 类 新 
实例 。 只 要 所 需 的 条 件 独立 性 能 够 被 满足 ,朴素 贝 叶 斯 分 类 vns 等 于 MAP 分 类 。 

朴素 贝 叶 斯 学 习 方 法 和 其 他 已 介绍 的 学 习 方法 之 间 有 一 个 有 趣 的 差别 :没有 明确 的 搜索 
可 能 假设 空间 的 过 程 (这 里 ,可 能 假设 的 空间 为 可 被 赋予 不 同 的 P(w) 和 PCa l v ) 项 的 可 能 
值 )。 假 设 的 形成 不 需要 捷 索 ,只 是 简单 地 计算 训练 样 例 中 不 同 数据 组 合 的 出 现 频率 就 可 以 
T: 


举例 


现 将 朴素 贝 叶 斯 分 类 大 应 用 到 前 面 决 策 树 中 讨论 过 的 概念 学 习 间 题 : 按 腿 某 入 是 否 要 打 
网 球 来 划分 天 气 。 第 3 章 的 表 3-2 提供 了 目标 概念 PlayTennis 的 14 个 训练 样 例 ,其 中 ,每 一 
天 由 属性 Outlook, Temperature. Humidity 和 Wind 来 描述 。 这 里 我 们 使 用 此 表 中 的 数据 结 
合 朴素 贝 叶 斯 分 类 丹 来 分 类 下 面 的 新 实例: 


Outlook = sunny, Temperature = cool, Humidity = high, Wind = iting) 


我 们 的 任务 是 对 此 新 实例 预测 目标 概念 PlayTennis 的 目标 值 (yes 或 mo)。 和 将 式 (6.20) 
应 用 到 当前 的 任务 ,目标 值 ong PAA h: 


ww ai bbt.com PO0O0O0D0D0OO0O 





128 Re FF 


VAR = argmax P(v,) [| PCa; | v) 


Aa 1ye, mo| 


= argmax 已 v;) P( Outlook = sunny | v) PC Temperature = cool | t) 
v E | yen, nn 
J 


P( Humidity = high | v,) P( Wind = strong | v,) (6.21) 

注意 ,在 最 后 -一 个 表达 式 中 m 已 经 用 新 实例 的 特定 属性 值 实例 化 了 。 为 计算 vws ,现在 
需要 10 个 炉 率 ,它们 者 可 以 从 训练 数据 中 估计 出 来 。 首 先 不 同 目标 值 的 概率 下 以 基于 这 14 
个 训练 样 例 的 频率 很 容易 地 估计 出 : 

P{ PlayTennis = yes) = 9/14 =0.64 
P{ PlayTennis = no) = 5/14 = 0.36 
HERR, BIRT RAE, AUF Wind = strong A: 
P( Wind = strong t PlayTennis = yes) =3/9=0.33 
P( Wind = strong | PlayTennis = no) = 3/5 = 0.60 

使 用 这 些 概 率 佑 计 以 及 对 剩余 属性 的 相似 的 估计, 可 按照 式 (6.21) 计 算 wwa 如 下 (为 简明 

起 见 和 忽略 了 属性 名 ); 
PC yes) P( sunny | yes) PÈ cool | yes) Pl high | ves ) Pt strong | yes) =0.0053 
P{ no) PCsunny! no} P( cool | no) PC high | no) P( strong | no) = 0.0206 

RE, ET MUIR SS BE FE Od Bl BA fa, FAR Ot Bp SS a a Se RR LB a 
PlayTennis = no o 再 进一步 ,通过 将 上 述 的 量 归 一 化 ,可 计算 给 定 观察 值 下 目标 值 为 no 的 条 
件 概 率 。 对 于 此 例 , 概 率 为 0.0206/(0.0206 + 0.0053) =0.795. 

45 i} HE 

ZE Res a a ERE RST. A EL, 
{hit P( Wind = strong | PlayTennis = no) 使 用 的 是 比值 nen, REF, n =5 为 所 有 PlayTeanis 
= no 的 训练 样 例 数目 ,而 ne =3 是 在 其 中 WTind = strong HRA. 

显然 ,在 多 数 情况 下 ,观察 到 的 比例 是 对 概率 的 一 个 良好 估计 ,但 当 m 很 小 时 个 计较 差 。 
难度 在 于 ,设想 P( Wind = strong | PlayTennis = mw ) 的 值 为 0.08, 而 样本 中 上 只 有 5 个 样 例 的 
PlayTennis = nos BAXIT n, 最 可 能 的 值 只 有 0。 这 产生 了 两 个 难题 ,首先 , n/n 产生 了 一 
个 有 偏 的 过 低 知 计 (underestimate) 概率 。 其 次 , 当 此 概 认 佑 计 为 时, 如果 将 来 的 查询 包 售 
Wind = strong ;此 概率 项 会 在 贝 时 斯 分 类 器 占有 统治 地 位 。 原 因 在 于 ,由 式 (6.20} 计 算 的 其 
需要 将 其 他 所 有 概率 项 磁 以 此 0 值 。 

为 避免 这 些 难 题 , 这 里 采用 一 种 佑 计 概 率 的 中 时 斯 方法 , 即 如 下 定义 的 m-f it: 


ret MP (6.22) 


ni+im 

Bn, 和 与 前 而 定义 相同 , p 是 将 要 确定 的 概率 的 先 验 估计 ,而 m 是 一 称 为 等 效 祥 
本 大 小 的 常量 , 它 确定 了 对 于 观察 到 的 数据 如 和 何 衡量 p 的 作用 。 在 缺少 其 他 信息 时 选择 p 的 
一 种 典型 的 方法 是 假定 均匀 的 先 验 概率 ,也 就 是 , 如果 某 属性 有 上 个 可 能 值 ,那么 设置 
p=l/ko Pla, Ait PC Wind = strong | PlayTennis = no) ,注意 到 属性 Wind 有 了 两 个 可 能 
值 ,因此 均匀 的 先 验 概 率 为 p =0.5。 注 意 如 果 m 为 0,m- 佑 计 等 效 于 简单 的 比例 nn 如 
on Al m 都 非 0, 那 么 观察 到 的 比例 n/n MERRE p 可 按照 权 m BH. m 被 称 为 等 效 样 
本 大 小 的 原因 是 : 式 (6.22) 可 被 解释 为 将 n 个 实际 的 观察 扩大 ,加 上 m 个 按 p 分 布 的 虚拟 样 
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re ee a = L 


本 。 
6.10 举例 :学 习 分 类 文本 


为 演示 贝 叶 斯 学 习 方法 在 实践 上 的 重要 性 ,考虑 一 个 学 习 问 题 ,其 中 的 实例 者 为 文本 文 
档 。 例 如 ,要 学 习 目 标 概念 :我 感 兴 趣 的 电子 新 闻 稿 "或 "讨论 机 器 学 习 的 万 维 网 页 ”。 在 这 两 
种 情况 下 ,如 果 计 算 机 可 以 精确 地 学 习 到 目标 概念 ,就 可 从 大 量 在 线 文 本 文科 中 目 动 过 滤 出 最 
相关 的 文档 显示 给 读者 。 

这 里 描述 了 一 个 基于 朴素 贝 叶 斯 分 类 器 的 文本 分 类 的 通用 算法。 有 趣 的 是 ,这 样 的 概率 
方法 是 目前 所 知 文 本 文档 分 类 算法 中 的 最 有 效 的 一 类 。 这 种 系统 的 例子 由 Lewis(1991). 
Lang(1995) 和 Joachims(1996) 提 出 。 

将 要 展示 的 朴素 贝 叶 斯 算法 遵循 以 下 的 问题 框 染 。 考 虑 实例 空间 X 包含 了 有 所有 的 文本 
文档 ( 即 任 意 长 度 的 所 有 可 能 的 单词 和 标点 符号 串 )。 给 定 某 未 知 目标 隐 数 f(x) FA I 
样 例 , f(x) 的 取 值 来 自 于 某 有 限 集合 VY。 此 任务 是 从 训练 样 例 中 学 习 , 以 预测 后 续 文 本 文档 
的 目标 值 。 作 为 示例 ,这 里 考虑 的 目标 函数 是 :将 文档 分 类 为 某 人 是 否 感 兴趣 ,使 用 目标 值 
like Fl dislike 代表 这 两 类 。 

在 应 用 朴素 贝 叶 斯 分 类 器 时 的 两 个 主要 设计 问题 是 ,首先 要 决定 怎样 将 任意 文档 表示 为 
属性 值 的 形式 ,其 次 韶 决 定 如 何 估计 朴素 贝 叶 斯 分 类 器 所 需 的 概率 。 

这 里 表示 任意 文本 文档 的 途径 极 奇 简单 。 给 定 一 文本 文档 (这 里 先 考 虑 英文 文档 ), 可 对 
每 个 单词 的 位 置 定义 一 个 属性 ,该 属性 的 值 为 在 此 位 置 上 找到 的 英文 单词 。 该 文本 文档 如 下 
例 所 示 : 

This is an example document for the naive Bayes classifier. This document contains only one 


paragraph, or two sentences. 


这 样 , 上 例 中 的 文本 被 表示 为 19 个 属性 ,对 应 19 个 单词 位 置 。 第 一 个 属性 的 值 为 
“This”, 第 二 个 为 "ia” ,依次 类 推 。 注 意 较 长 的 文档 也 需 蓝 较 多 的 属性 数目 。 我 们 将 看 到 ,这 不 
会 带 来 任何 麻烦 。 

如 果 文 本 文档 这 样 表 示 , 现 在 就 可 以 应 用 村 素 贝 叶 斯 分 类 器 了 。 为 了 明确 起 见 , 假 定 我 们 
有 700 个 训练 文档 ,并 且 已 由 人 工 将 其 分 类 为 dislike, MA Fh 300 个 文档 被 分 类 为 likes ME 
有 了 一 个 新 立 档 要 分 类 。 为 明确 起 见 ,该 文档 就 是 上 面 的 两 句 英 文 例子 。 在 此 情况 下 ,本 应 用 
式 (46.20) 计 算 朴 素 贝 叶 斯 分 类 器 如 : 


19 
UNA = argmax P(»;) [| P(a, | v) 
„€l , dislike | KaT 


= s Plaj) Play = "this | v;) PC a = "is" | v)... Pl ayo = "sentences | v) 
we + dintibe 


概括 地 讲 , 村 素 册 叶 斯 分 类 vws 是 使 该 文档 中 的 单词 在 此 处 被 观察 到 的 概率 最 大 的 一 个 
分 类 , 它 遵循 通常 的 村 素 贝 叶 斯 独立 性 假定 。 独 立 人 性 假定 Pla .as | 5) = [L/P 
(a; 1 v,) 说 明 在 一 个 位 置 上 出 现 菜单 词 的 概率 独立 于 另外 一 个 位 置 的 单词 。 这 一 假定 在 有 
些 时候 并 不 反映 真实 情况 。 例 如 ,在 其 处 观察 到 单词 learning 的 概率 会 因为 它 前 一 单间 是 
machine 而 增 大 。 虽 然 此 独立 性 假定 很 不 精确 ,但 这 里 别 无 选择 ,必须 作 此 假定 一 没有 这 个 
假定 ,要 计算 的 概率 项 将 极为 庞大 。 幸 运 的 是 ,在 实践 中 朴素 员 叶 斯 学 习 器 在 许多 文本 分 类 问 
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Ah HE BEE Be A, eA ye HE SE ARIE. Domingos 和 Pazzani( 1996) 对 这 一 幸运 的 现象 作 
了 一 个 有 趣 的 分 析 。 

为 使 用 上 式 计 算 vws ,需要 估计 概率 项 Ptv;) 和 PCa; = wl v) 这 里 引入 w 代表 英文 
词典 中 的 第 下 个 单词 。 前 一 项 可 基于 每 一 类 在 训练 数据 中 的 比例 很 容易 地 得 到 (此 例 中 
P( like} =0.3 H P( dislike) = 0.7)。 如 以 往 那样 ,估计 类 别 的 条 件 概率 { 如 Peil) =“ This” | 
Pt disiiie)) 要 困难 的 多 ,因为 必须 对 每 个 文本 位 置 .英文 单词 和 目标 值 的 组 合计 算 此 概率 项 。 
非常 不 幸 ,在 英文 词汇 中 包含 约 5 万 个 不 同 单词 ,本 例 中 有 2 Sal REN BEM 19 个 文本 位 
置 . 所 以 必须 从 训练 数据 中 个 计 2x19x50000=200 万 个 这 样 的 概率 项 。 

幸运 的 是 ,可 以 再 引入 一 合理 的 假定 以 减少 需要 估计 的 概率 数量 。 确 切 地 讲 , 可 很 定 过 到 
一 个 特定 单词 w, 的 概率 独立 于 单词 所 在 位 置 。 形 式 化 的 表述 是 ,在 给 定 目 标 分 类 的 情况 下 ， 
假定 各 属性 是 独立 同 分 布 的 , 靶 对 所 有 的 i, j, k, om, PCa, = wio) = Pla, wl v)so A 
浊 ,为 估计 整个 概率 集合 Pla = wilo), PCa = wi1v))…, 可 通过 一 个 位 置 无 关 的 概率 
Pl wilo) ,而 不 考虑 单词 的 位 置 。 其 效果 是 ,现在 只 需 训 2 x 50000 个 不 同 的 概率 项 P( w! 
vj)。 明 然 这 仍然 是 一 个 较 大 的 数值 ,但 却 是 可 处 理 的 。 注 意 到 如 果 训 练 数据 有 限 , 作 此 假定 
的 一 个 主 刘 优点 在 于 , 它 使 可 用 于 估计 每 个 所 需 概 率 的 样 例 数 增加 了 ,因此 增加 了 人 居 计 的 可 妈 
程度 。 

为 完成 学 习 算法 的 设计 , 仍 需 要 选择 一 个 方法 估计 概率 项 。 这 里 采纳 了 等 式 (6.22) 中 的 
m- 居 计 , 即 有 统一 的 先 验 概率 并 且 m 等 于 词汇 表 的 大 小 。 因 此 ,对 PC witw;) 的 估计 为 : 

np +t i 
nt | Pabula 

其 中 ,nm 为 所 有 目标 值 为 w 的 训练 样 例 中 单词 位 置 的 总 数 , nk EEn 个 单词 位 置 中 找到 
wi 的 次 数 ,而 | Vocabulary| 为 训练 数据 中 的 不 同 单词 (以 及 其 他 记号 ) 的 总 数 。 

概括 地 说 ,最 终 的 算法 使 用 的 朴素 贝 叶 斯 分 类 器 假定 单词 出 现 的 概率 与 它 在 文本 中 的 世 


置 无 关 。 最 终 的 算法 显示 在 表 6-2 中 。 注 意 该 算法 非常 简单 。 其 中 ,过 程 LEARN-NAIVE-BAYES- 
TEXT 分 析 所 有 训练 文档 ,从 中 抽取 出 所 有 出 现 的 单词 和 记号 ,然后 在 不 局 目标 类 中 计算 其 频 


率 以 获得 必要 的 概率 估计 。 以 后 , 若 给 定 一 个 待 分 类 新 实例 ,过 程 CLASSIFY-NAIVE-BAYES-TEXT 
使 用 此 概率 估计 来 按照 式 (6.20) 计 算 wwpg。 注 意 在 新 文档 中 出 现 但 不 在 训练 集 的 文档 中 出 现 
的 任何 单词 将 被 简单 地 忽略 。 该 算法 的 代码 以 及 训练 数据 集 , 可 在 万 维 网 的 http: 
www.cs.cmu.edu/ ~ tom/book. html 中 找到 。 


ke: 用 于 学 习 和 分 类 文本 的 朴素 贝 叶 斯 算法 





LEARN _ NAIVE _ BAYES _ TEXT( Examples, V) 


Examples 为 一 组 文本 文档 以 及 它们 的 目标 值 。F 为 所 有 可 能 目标 值 的 集合 。 此 函数 作用 是 学 习 概 率 项 
Pilv) EHET ARS w 中 的 一 个 文档 中 随机 抽 歌 的 一 个 单词 为 英文 单词 w 的 概率 。 该 函数 也 学 习 类 别 
的 先 验 概率 P( wj)。 


1. 收集 Example: 中 所 有 的 单词 .标点 符号 以 及 其 他 记号 


© Vosbulary -Æ Examples 中 任意 文本 文档 中 出 现 的 所 有 单词 及 记号 的 集合 
pr a Ua oor 
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(3) 


2. 计算 所 需要 的 概率 项 P(e A Pi wle) 
eli y PRHE r, 


@ doa; Examples 中 目标 值 为 w 的 文档 子 集 
| does, | 
OF 0) Erama 
d Text +- does, 中 所 有 成 员 连 接 起 来 建立 的 单个 文档 


@a~ ft Tert, FARAH EHEN 
O3} Vocabulary 中 每 个 单词 w, 
| me- 单词 wy 出 更 在 Test, 中 的 次 数 


Ah + 1 
a+ | Yocabulary | 





@ Piw e) 
CLASSIFY _ NAIVE _ BAYES _ TEXTI Doc) 
对 文档 Dec BER RR IRI. a, 代表 在 Doe 中 的 第 i 个 位 置 上 出 现 的 单词 
@ positions 一 在 Doe 中 的 所 有 单词 位 置 , 它 包含 能 在 Vocabulary 中 找到 的 记号 
三 返回 sys 


Tyg = argmaxPt v) [I P(a, | e) 
Pad iE papis 
注 : E debir a RMS Eae E oE A EE F: EE 


实验 结果 


表 6-2 的 学 习 算法 效率 如 何 ? 在 Joachims(1996) 的 一 个 实验 中 ,此 算法 (有 微小 的 变化 ) 
被 应 用 于 分 类 新 闻 组 的 文章 。 其 中 每 一 文章 的 分 类 是 该 文章 所 属 的 新 闻 组 和 名称。 此 实验 考虑 
了 20 个 电子 新 闻 组 ,然后 从 每 个 新 闻 组 中 搜集 1000 篇 文章 ,形成 一 个 包含 2 万 个 文档 的 数据 
集 。 然 后 应 用 朴素 贝 叶 斯 算法 ,其 中 2/3 作为 训练 样 例 , 而 在 剩余 1/3 中 进行 性 能 的 衡量 。 因 
为 有 20 个 可 能 的 新 闻 组 ,那么 随机 猜测 的 分 类 精确 度 为 5 和 % 。 由 程序 获得 的 精确 度 为 89 名。 
此 实验 中 使 用 的 算法 与 表 6-2 中 的 算法 只 有 一 点 不 加 ;只 有 文档 中 出 现 单 词 的 一 个 子 集 被 选 
作 算法 中 的 词汇 表 , 确 切 地 说 ,100 个 最 常见 的 单词 被 移 去 {如 “the" 和 “of”" 这 样 的 单词 ), 而 县 
任何 出 现 少 于 3 次 的 单词 也 被 移 去 ,得 到 的 词汇 表 大 约 包 含 38 500 个 单词 。 

应 用 类 似 的 统计 学 习 算法 进行 文本 分 类 的 其 他 实验 也 获得 了 同样 好 的 结果 。 例 如 , Lang 
(1995) 找 述 了 朴素 贝 叶 斯 算法 的 另 一 变种 ,把 它 应 用 到 学 习 有 是 标 概念 “我 感 兴趣 的 新 闻 组 文 
章 "。 他 描述 了 NewsWeever 系统 一 一 是 一 个 让 用 户 赔 读 新 闻 组 文章 并 为 其 评分 的 系统 。 然 
后 News WeEDER 使 用 这 些 评分 的 文章 作为 训练 样 倒 , 来 预测 后 续 的 文章 叭 些 是 用 户 感 兴趣 
的 ,再 将 其 送 给 用 户 阅 读 。LANG (1995) 报 告 了 他 的 实验 ,其 中 用 News Weeper 中 学 到 的 用 户 
兴趣 配置 文件 ,每 天 向 用 户 推 荐 评分 最 高 的 新 文章 。 和 通过 每 天 向 用 户 展 示 前 10 和 的 自动 评分 
文章 , 它 建立 的 文章 序列 中 包含 的 用 户 感 兴 趣 的 文章 比 通常 高 3 ~4 们 。 例 如 ,被 一 个 用 户 评 
价 为 “有 趣 的 "文章 占 总 体 的 16 名 ,而 NEwsWEEnEa 推荐 的 文章 中 他 感 兴趣 的 占 59%, 

其 他 几 种 非 贝 叶 斯 的 统计 文本 学 习 算 法 也 很 常见 ,其 中 许多 基于 信息 检索 领域 (informa- 
tion retrieyaly 中 的 最 先 发 明 的 相似 性 度量 ( 见 Rocehio 1971;Salton 1991), 更 多 的 文本 学 习 算 
法 见 Hearst & Hirsh(1996)。 
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R63 在 文本 分 类 实验 中 使 用 的 20 个 新 闻 组 


comp. graphics misc. forsale soc, religion. christian aci. space 
comp. òs. me windows. misc rec. autos talk. politics. puns aci, crypt 
comp. sys. ibm. pe. hardware rec. motorcycles talk . politics. mideast sci. electronics 
comp. sys. mac. hardware rec. sport. baseball talk . politics. misc sci. med 
comp. windows. x rec. sport. hockey talk. religion. misc 


alt. atheism 


i. 在 对 每 个 新 闻 组 用 667 KLEIE, HO TMPASEARASRALEAT EP HMM RT come 
度 ， 随 机 猜测 只 能 得 到 5G AE, 


6.11 Anas 


如 前 两 节 所 讨论 的 ,朴素 贝 叶 斯 分 类 器 假定 属性 a1… a 的 值 在 给 定 目标 值 " 下 是 条 件 独 
立 的 。 这 一 假定 显著 地 减 小 了 目标 函数 学 习 的 计算 复杂 度 。 当 此 条 件 成 立时 ,朴素 贡 叶 斯 分 
类 器 可 得 到 最 优 幢 叶 斯 分 类 。 然 而 ,在 许多 情形 下 ,这 一 条 人 性 独立 假定 明显 过 于 严格 了 。 

贝 叶 斯 信念 网 措 述 的 是 一 组 变量 所 遵从 的 概率 分 布 , 它 通过 一 组 条 件 概 率 来 指定 一 组 条 
件 独 立 性 假定 。 朴 素 册 叶 斯 分 类 岸 假定 所 有 变量 在 给 定 目 标 变量 值 时 为 条 件 独 立 的 。 与 此 不 
同 , 员 叶 斯 信和 念 网 中 可 表述 变量 的 一 个 子 集 上 的 条 件 独立 性 想 定 。 因 此 , 贝 叶 斯 信念 网 提供 了 
一 种 中 间 的 方法 , 它 比 朴 京 贝 叶 斯 分 类 器 中 条 件 独 立 性 的 全 局 假定 的 限制 更 少 ,又 比 在 所 有 谈 
量 中 计算 条 件 依 赖 更 可 行 。 贝 叶 斯 信念 网 是 目前 研究 中 一 个 焦点 ,而 且 已 提出 学 习 它 和 用 它 
进行 推理 的 多 种 方法 。 本 节 介 绍 贝 叶 捧 信和 念 网 的 关键 概念 和 表示 。 更 详细 的 讨论 见 Pearl 
(1988) .Rusel & Norvig (1995) ,Heckerman et al.(1995)L/ & Jensen (1996). 

一 般 来 说 ,内 叶 斯 信和 念 网 措 述 了 一 组 变量 上 的 概率 分 布 。 考 虑 一 任意 的 随机 变量 集合 Y 
… 了, ;其 中 每 个 Y; 可 取 的 值 集合 为 YL 了 Y)。 定 义 变量 集合 了 的 联合 空间 (joint space) 为 又 
PVY) VY.) V(Y,)。 换 言 之 ,在 联合 空间 中 的 每 一 项 对 应 变量 元 组 (Yl.. .了 ,的 
一 个 可 能 的 峰值 。 在 此 联合 空间 上 的 概率 分 布 称 为 联合 概率 分 布 (joint probability distribu- 
tion)。 联 合 概率 分 布 指定 了 元 组 (了 Y 1. .. YO ) 的 每 个 可 能 的 变量 约束 的 概率 。 贝 叶 斯 信念 网 
则 对 一 组 变 基 撕 述 了 联合 概率 分 布 。 


6.11.1 条 件 独 立 性 


首先 ,为 讨论 贝 叶 斯 信念 网 ,需要 精确 定义 条 件 独立 性 。 令 外、 了 和 和 Z 为 3 个 离散 值 随 机 
变量 。 当 给 定 2 值 时 三 服从 的 概率 分 布 独立 于 了 的 值 , 称 X 在 给 定 Z 时 条 件 独立 于 了 , 即 : 
CW xis yj. z) PCX = xil Y= yp Z= 2,)= P(X = xl Z= zh 

其 中 ; x.E V(X),yyE VOY). aE V(Z)。 通 常 将 上 式 简写 为 P(X1Y,2)= P(XI12)。 
这 一 关于 条 件 独立 性 的 定义 可 被 扩展 到 变量 集合 。 当 下 列 条 件 成 立时 , 称 变 量 集 合 Xi... X 
在 给 定 变量 集合 21.. .2 时 条 件 独立 于 变量 集合 Yi.. Yn: 
POX ca AY jie Voie A = PLA ce A Seas ea 
注意 ,此 定义 与 朴素 贝 叶 斯 分 类 器 中 的 条 件 独立 性 之 间 的 关系 。 朴 束 贝 时 斯 分 拓 古 假定 
给 定 目标 值 Y 时 ,实例 属性 A, 条 件 独立 于 实例 属性 4z, 这 使 得 朴素 贝 叶 斯 分 类 癸 可 以 按照 


下 式 计 算式 (6.20) 中 的 PCA), Agi Y): 
P(A, Asl V)= P(A 142, V)PCAQI VF) (6.23) 
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= P(A,|V)PCA31V) (6.24) 
式 (6.23) 只 是 表 6-1 中 概率 的 飞 法 规则 的 一 般 形 式 。 式 人 (6.24) 威 立 是 因为 A ER V 
时 条 件 独 立 于 A> ,然后 由 条 件 独 立 性 的 定 尽 可 以 得 到 PCA, A, V) = PCA, VV). 


6.11.2 ÆJ 


页 叶 斯 信念 网 (简写 为 由 是 斯 网 ) 表 示 --… 组 变量 的 联合 概率 分 布 。 例 如 ,图 6-3 H DL et 
斯 网 表示 了 在 布尔 变量 Storm, Lightning ~, Thunder , ForestFire, Campfire 和 Bus TourGroup 
上 的 联合 概率 分 布 。 一 般 地 说 , 贝 叶 斯 网 表示 联合 概率 分 布 的 方法 是 指定 一 组 条 件 独 立 性 假 
定 { 它 表示 为 一 有 向 无 环 图 ) 以 及 一 组 局 部 条 件 概率 集合 。 联 合 空间 中 每 个 变量 在 贝 叶 斯 网 中 
表示 为 一 个 结 点 。 对 每 一 个 变量 需要 两 种 类 型 的 信息 。 首 先 ,网 络 弧 表示 断言 “此 变量 在 给 定 
其 直接 前 驱 时 条 件 独 立 于 其 非 后 继 ”。 当 从 BX PEE RARE, RR OX E Y 的 后 
继 。 其 次 ,对 每 个 变量 有 一 个 条 件 概 率 表 , 它 描述 了 该 变量 在 给 定 其 立即 前 驱 时 的 概率 分 布 。 对 
网 络 变 量 的 元 组 (Yi. . .了 ,) 髓 以 所 希望 的 值 (yj,.. y,) 的 联合 概率 可 由 下 面 的 公式 计算 : 


Py ig ot he) = F eo. | Parents( Y;)) 


HEt , Parents YORA P Y; 的 直接 前 驱 的 集合 。 注意 , PCy; | Parents( Fi)) 的 值 等 
于 与 结 点 Y 关联 的 条 件 概率 表 中 的 值 。 


C som ) BusTourGroup 
ing 


SB SoB 38,8 75,78 
04 61 O 0.2 
0.9 





ve 


HARRARI- SRR ERE. BOM STRESS RA RERE T HAE 
BRA. STHASR-THHREA CHET RERESEELAAN BRAT A 
列 出 了 Campfire 缚 点 的 条 件 概率 表 , 其 中 Campfire, Storm 和 BusTourGroup Sy RGR SAC, SB 


图 6-3 贝 叶 斯 信念 网 





为 说 明 这 一 点 ,图 6-3 表示 了 在 布尔 变量 Storm, Lightning, Thunder. ForestFire . 
Campfire 以 及 BusTourGroup 上 的 联合 概率 分 布 。 考 叫 结 太 Campfire， 网 络 姑 点 和 扳 表 未 
了 断言 ; Campfire 在 给 定 其 父 结 点 Storm 和 BusTourGroup 时 条 件 独立 于 其 非 后 继 Lightning 
和 Thunder 。 这 意味 着 一 旦 我 们 知道 了 变量 Storm 和 BusTourGroup 的 值 ,变量 Lightning 
和 Thunder 不 会 提供 有 关 Camp fire HELA. BAW BRT SER Campfire 联系 的 
条 件 概 率 表 。 比 如 衷 的 最 左上 一 个 数据 表示 了 以 下 的 断言 : 

P( Campfire = Truel Storm = True, BusTourGroup = True} =0.4 
注意 ,此 表 只 提供 了 给 定 其 父 变量 Storm 和 BusTourGroup 下 Campfire 的 条 件 概 率 ,所 有 变量 
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的 局 部 条 件 概 率 表 以 及 由 网 络 所 描述 的 一 组 条 件 独 立 假定 ,描述 了 该 网 络 的 整个 联合 概率 分 布 。 

贝 叶 斯 信念 网 的 一 个 吸引 人 的 特性 在 于 , 它 提供 了 一 种 方便 的 途径 以 表示 因果 知识 ,比如 
Lightningt 闪电 ) 导 致 Thunder (打雷 )。 以 条 件 独 立 性 的 术语 ,可 将 其 表述 为 在 给 定 Light- 
ning 的 值 情况 下 , Thunder 条 件 独 立 于 网 络 中 其 他 变量 。 注 意 , 此 条 件 独 立 性 假定 是 由 图 6-3 
AS DE HS BS) ST SB E ES o 


6.11.3 推理 


可 以 用 贝 叶 斯 网 在 给 定 其 他 变量 的 观察 值 时 推理 出 某 些 目 标 变 量 ( 如 , ForestFire) HE. 
当然 ,由 于 所 处 理 的 是 随机 变量 ,所 以 一 般 不 会 赋予 利 标 变量 一 个 确切 的 值 。 真 正 需 要 推理 的 
是 中 标 变量 的 概率 分 布 , 它 指 定 了 在 给 予 其 他 变量 的 观察 值 条 件 下 ,目标 变量 取 每 一 个 可 能 值 
的 概率 。 在 网 络 中 所 有 其 他 变量 都 确切 知道 了 以 后 ,这 一 推理 步骤 是 很 简单 的 。 在 更 通常 的 
情况 下 ,我 们 希望 在 知道 一 部 分 变量 的 全 (比如 仅 有 Thunder 和 BusTourGroup 可 被 观察 儿 ) 
时 获得 某 变 量 的 概率 分 布 ( 如 Forestmire)。 一 般 来 说 , 贝 叶 斯 财 络 可 用 于 在 知道 某 些 变量 的 
值 或 分 布 时 计算 网 络 中 另 一 部 分 变量 的 概率 分 布 。 

一 般 情况 下 ,对 任意 贝 叶 斯 网 络 的 概率 的 确切 推理 已 经 知道 是 一 个 NP 难题 (Cooper 
1990)。 已 有 多 种 方法 在 贝 叶 斯 网 络 中 进行 概率 推理 ,包括 确切 的 推理 以 及 牺牲 精度 换取 效率 
的 近似 推理 方法 。 例 如 ,Monte Carlo 方法 提供 了 一 种 近似 的 方法 ,通过 对 未 观察 到 的 变量 进 
行 随机 采样 ( Pradham Dagum 1996)。 理 论 上 ,即使 是 贝 叶 斯 网 络 中 的 近似 推理 也 可 能 是 NP 
难题 (Dagnm 和 Luby 1993)。 幸 运 的 是 ,实践 中 许多 情况 下 近似 的 方法 被 证 明 是 有 效 的 ,对 于 
贝 叶 斯 网 络 推理 方法 的 讨论 由 Russell & Norvig(1995) 和 Jensen(1996) 作 出 。 


6.11.4 学 习 贝 叶 斯 情 念 网 


是 否 可 以 设计 出 有 效 的 算法 以 从 训练 数据 中 学 到 贝 叶 期 信念 网 ?” 这 是 目前 赋 究 中 的 一 个 
焦点 问题 。 对 于 这 一 -问题 有 多 种 可 以 考虑 的 框架 。 首 先 网 络 结构 可 以 预先 给 出 ,或 可 由 训练 
数据 中 推 得 。 其 次 ,所 有 的 网 络 变量 可 以 直接 从 每 个 训练 样 例 中 观察 到 ,或 某 些 变量 不 能 观察 
到 。 

当 网 络 结构 预先 已 知 且 变量 可 以 从 训练 样 例 中 完全 获得 时 ,通过 学 习 得 到 条 件 概 率 表 就 
比较 简单 了 ,只 需要 像 在 朴素 贝 叶 斯 分 类 器 中 那样 估计 表 中 的 条 件 概 率 项 。 

若 网 络 结构 已 知 , 但 只 有 一 部 分 变量 值 能 在 数据 中 观察 到 ,学习 问题 就 恩 难 得 多 上。 这 一 
问题 在 某 种 程度 上 类 似 于 在 人 工 神 经 网 络 中 学 习 隐 藏 单元 的 权 值 ,其 中 输 人 和 输出 结 总 值 由 
训练 样 例 给 出 ,但 隐藏 单元 的 信 未 指定 。 实 际 上 Russtl et al. (1995) 提 出 了 一 个 简单 的 梯度 
上 升 过 程 以 学 习 条 件 概率 表 中 的 项 。 这 一 梯度 上 升 过 程 搜索 一 个 假设 空间 , 它 对 应 于 条 件 概 
率 表 中 所 有 可 能 的 项 。 在 梯度 上 升 中 被 最 大 化 的 指标 函数 是 给 定 假 没 下 观察 到 训练 数据 
D 的 概率 P(DIh)。 按 照 定义 , 它 相当 于 对 表 项 搜索 极 大 似 然 假设 。 


6.11.5 贝 时 斯 网 的 梯度 上 升 训练 


由 Russell et al. (1995) 给 出 的 梯度 上 升 规则 通过 InP(D 1h) 的 梯度 来 使 PCDI A)RK 
化 ,此 梯度 是 关于 定义 贝 叶 斯 网 的 条 件 概率 表 的 参数 的 。 令 zi 代表 条 件 概率 表 的 一 个 表 项 。 
确切 地 讲 , 令 wa 为 在 绘 定 父 结 点 U; 取 值 uath MATE Yi 值 为 办 的 概率 。 例 如 , 若 wig 
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图 6-3 中 条 件 概率 表 中 最 右上 方 的 表 项 ,那么 Y: 为 变量 Campfire, U; 是 其 父 结 点 的 元 组 
《Siorrma ， Bus Tour Group } ,yi = True, Jf Bu, =< False, False), TFT w In PCD | 六) 的 


梯度 由 导数 人 (名 给 出 。 如 下 所 示 , 每 个 导数 可 根据 下 式 来 计算 : 
ij 


OlnP(D | A) > PCY; = yj U: = wg | d) (6.25) 
OW ijk d= W ijk i 


例如 ,为 计算 对 应 于 图 6-3 中 表 左 上 方 的 表 项 的 mP( 18) 的 导数 ,需要 对 D 中 每 个 训练 
样 例 d iH P( Campfire = True, Storm = False, BusTourGroup = False | d)。 当 训练 样 例 
d 中 无 法 观察 到 这 些 变 量 时 ,这 些 概 率 可 用 标准 的 贝 叶 斯 网 络 从 d 中 观察 到 的 变量 中 推理 得 
到。 实际 上 这 些 所 需 的 量 是 从 多 数 贝 叶 斯 网 络 检 理 的 过 程 中 计算 得 到 的 ,因此 无 论 何 时 贝 叶 
斯 网 络 被 用 于 推理 并 且 随 即 获得 新 的 证 所 ,学 习 过 程 几乎 不 需要 附加 的 开销 。 

下 面 根据 Russell et al.(1995) 推 导 式 (6.25)。 本 节 的 后 面 在 第 一 次 阅读 时 可 以 被 跳 过 ， 
而 不 失 连 续 性 。 为 使 记号 简单 化 ,下 面 的 推导 将 用 P; (DD) 来 简写 PLD1h)。 因 此 ,我 们 的 问 


题 是 获得 对 所 有 i,j, 的 导数 集合 3h ” BE 假定 在 数据 集 D 中 的 各 样 例 d 都 是 独立 
抽取 的 ,可 将 此 导数 写 为 ， 











= _ - nae [lea 
ec 
= W ijk 
= l aP, d) 
Š 2 Ba) OW iz 
PT BRL 1 IO), ete hah ASE YÑ U; = Parents 


CARL, DEET ABH Yip AU yy ERA. 


ain P,(D) 
OW ijk 7 2 Pd) awy Pd yir + tia) Phl yip > ta) 


= D Ba) Swe PH | vig s ti ) Phl yi | we ) Py tip ) 

最 后 一 步 来 自 于 概率 的 乘法 公式 , 见 表 6-1。 现 在 考虑 上 面 最 后 一 式 最 右边 的 求 和 项 。 

给 定 耳 w= Pa(yy1uu), 在 此 求 和 中 惟一 3 不 等 于 0 的 项 是 其 中 六 =j) Mi’ = i 的 项 , 因 
ay 


iG: 











OlnP,(D) 1 
Dwi Dae Pald | yys ua) Pal yy | ta) Pht wa) 
1 
7 24 PCa) ee Sy fate | Yi? » big) WiRPh( ug) 


= > P, AC | Vip» » uit) Py (ug) 


JEP 


应 用 贝 叶 斯 公式 来 重 写 P( d1y,, wa) 可 得 ; 


anP(D) _ 1 Palys ta | d)P(d) Pi Cite) 
OW iy 7 IED Pild) Pal ys» a.) 
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_ St Pal yasta | dP, ug) 


dé p Ph C yy > Hik 


"4 Pil Yije ik | d) 
ten Pal yy, | ug) 


45 ele (6.26) 


dE D M iik 
这 样 我 们 已 导出 了 式 (6.25} 中 的 梯 座 。 


— 


在 描述 梯度 上 升 训练 前 还 要 考虑 一 个 问题 。 确 切 
Hin, TBR SRK wi 更 新 时 ,它们 必须 保持 有 效 概 率 在 区 间 [0,1] 之 间 。 我 们 还 要 求 
2 jw 计 对 所 有 的 i, 上 保持 为 1。 这些 限 制 可 由 一 个 两 步 又 的 权 更 新 来 满足 。 首 先 用 梯度 上 和 天 
来 更 新 每 个 wiz: 
Pal Yg» ug | d) 
W iik 

其 中 ,3 是 一 小 的 常量 , 称 为 学 习 率 。 其 次 ,再 将 权 值 wix 归 一 化 ,以 保证 上 面 的 限制 得 到 
WAL BM Russell 所 描述 的 那样 ,这 一 过 程 将 收 误 到 贝 叶 斯 网 络 中 的 条 件 概率 的 一 个 局 部 极 大 
似 然 假设 。 

像 在 其 他 基于 梯度 的 方法 中 那样 ,该 算法 只 保证 寻找 到 局 部 最 优 解 。 替 代 梯 度 土 升 的 一 
个 算法 是 EM 算法 , 它 在 第 6.12 节 中 讨论 , 它 也 只 找 局 部 极 大 可 能 解 。 


6.11.6 学 习 贝 叶 斯 网 的 结构 


当 网 络 结构 预先 未 知 时 ,学 习 贝 时 斯 网 络 也 很 困难 。 Cooper & Herskovitst 1992) 提 出 了 - 
TAR Sipe at ROE (Bayesian scoring metric) ,以 便 从 不 同 网 络 中 进行 选择 。 他 们 还 提出 一 个 
称 为 K2 的 启发 式 搜索 算法 用 于 在 数据 完全 可 观察 到 时 学 习 网 络 结构 。 像 多 数学 习 网 络 结构 
的 算法 一 样 , K2 执行 的 是 一 个 贪 楚 搜 索 , 以 便 在 网 络 的 复杂 性 和 它 在 训练 数据 上 的 精度 之 间 
作出 折 中 。 在 一 个 实验 中 ,K2 被 给 予 3000 个 训练 样 例 , 这 些 样 例 是 从 包含 了 37 个 节点 和 46 
条 弧 的 手工 创建 的 忠 叶 期 网 络 中 随机 抽取 的 、 这 一 网 络 措 述 了 在 一 医院 的 手术 室 中 潜在 的 细 
商 问 题 。 除 了 数据 以 外 ,程序 还 被 给 予 37 个 变量 的 初始 排序 , 它 与 实际 网 络 中 变量 之 间 的 偏 
序 关 系 一 致 。 该 程序 成 功 地 创建 出 了 与 正确 网 络 结构 几乎 一 样 的 贝 叶 斯 网 络 , 除 了 一 个 不 IE 
确 地 被 删除 的 和 一 不 正确 地 被 加 入 的 弧 。 

基于 约束 的 学 习 贝 叶 斯 网 络 结构 的 途径 也 已 被 开发 出 来 (例如 ,Spirtes et al. 1993)。 这 
些 途 径 从 数据 中 措 导 出 独立 和 相关 的 关系 ,然后 用 这 些 关 系 来 构造 由 时 斯 网 。 关 于 当前 学 习 
贝 叶 斯 网 的 途径 的 调查 由 Heckerman( 1995) 和 Buntine(1994) 给 出 。 


6.12 EM 算法 


在 许多 实际 的 学 习 问 题 框架 中 ,相关 实例 特征 中 只 有 一 部 分 可 观察 到 。 例 如 ,在 训练 或 使 
用 图 6-3 中 的 贝 时 斯 信念 网 时 ,网络 变 量 Storm, Lighting, Thunder, ForestFire, Campfire 
Al BusTourGroup 中 可 能 具有 一 个 子 集 能 在 数据 中 观察 到 。 已 有 许多 方法 被 提出 用 来 处 理 存 
在 末 观 察 到 该 变量 的 变量 的 问题 。 如 在 第 3 音 中 看 到 的 , 若 某 些 变量 有 时 能 观察 到 ,有 时 不 
能 ,那么 可 以 用 观察 到 该 变量 的 实例 去 预测 未 观察 到 的 实例 中 变量 的 值 。 在 本 节 中 描述 EM 
算法 ( Dempster et al. 1977) ,这 是 存在 隐 含 变量 时 广泛 使 用 的 一 种 学 习 方 法 。EM 算法 可 用 


Wik Wik + p> 
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于 变 基 的 值 从 来 没有 被 直接 观察 到 的 情形 ,只 要 这 些 变量 所 遵循 的 概率 分 布 的 一 般 形 式 已 知 。 
EM 算法 已 被 用 于 训练 贝 叶 斯 网 ( 见 Heckerman 1995) 以 及 第 8.4 With HY el SE we RK radial 
basis function) 网 络 。EM 算法 还 是 许多 非 监 督 聚 类 算法 的 基础 (如 Cheeseman et al. 1988), M 
且 它 是 用 手 学 习 部 分 可 观察 马尔 可 夫 模 型 (Partially Observable Markov Model) 的 广泛 使 用 的 
Baum- Welch 前 向 后 向 算法 的 基础 (Rabiner 1989)。 


6.12.1 估计 上 天 个 高 斯 分 布 的 均值 


介绍 EM 算法 最 方便 的 方法 是 通过 一 个 
例子 。 考 虑 数据 D 是 一 个 实例 集合 , 它 由 上 
个 不 同 正 态 分 布 的 混合 所 得 分 布 生成 。 该 问 
题 框 架 在 图 5-4 Pit AP k= 2 而 县 实例 
为 沿 着 x 轴 显 示 的 点 。 每 个 实例 使 用 一 个 两 
步骤 过 程 形成 。 首 先 ,随机 选择 上 个 正 态 分 布 
中 的 一 个 。 其 次 ,随机 变量 x; 按照 此 选择 的 
分 布 生成 。 这 一 -过程 不 断 重 复 ,生成 一 组 数据 实例 为 沿 着 x 轴 显 示 的 点 得。 如 果 正 态 分 布 的 
点 如 图 6-4 所 示 。 为 使 讨论 简单 化 ,我 们 考虑 SERM EM RT RRR Ae 
一 个 简单 情形 , 即 单个 正 态 分 布 的 选择 基于 均 OA TARE o 下 
与 的 概率 进行 选择 ,并 且 个 正 态 分 布 有 相同 i 
的 方差 s2, 且 a? 已 知 。 学 习 任 务 是 输出 一 个 假设 = 《jp .pa), 它 描述 了 个 分 布 中 每 一 个 
分 布 的 均值 。 我 们 希望 对 这 些 均值 找到 一 个 极 大 似 然 假设 , 即 一 个 使 p( D1k) 最 大 化 的 假设 
ho 

注意 , 当 给 定 从 一 个 正 态 分 布 中 抽取 的 数据 实例 x1，x;，. . .，x 时 ,很 容易 计算 该 分 布 
的 均值 的 极 大 似 然 假 设 。 这 一 寻找 单个 分 布 均值 的 问题 只 是 在 6.4 节 的 式 (6.6) 中 讨论 的 问 
题 的 一 个 特例 ,在 其 中 我 们 证 明了 极 大 似 然 假 设 是 使 m 个 训练 实例 上 的 误差 平方 和 最 小 化 的 
假设 。 使 用 当前 的 记号 重新 表述 一 下 式 (6.6) ,可 以 得 到 : 





Lup = argmin >) (x, ~ py (6.27) 
在 此 情况 下 ,误差 平方 和 是 由 样本 均值 最 小 化 的 : 
HMI = => x; (6.28) 


然而 ,在 这 里 我 们 的 问题 涉及 到 上 个 不 同 正 态 分 布 的 混合 , 而 且 我 们 不 知道 哪个 实例 是 
哪个 分 布 产 生 的 。 因 此 这 是 一 个 涉及 隐藏 变量 的 典型 例子 。 在 图 6-4 的 例子 中 ,可 把 每 个 实 
例 的 完整 描述 看 作 是 三 元 组 Mis žile zi2) ,其 中 ， Xi 是 第 i 个 实例 的 观 调 值 ， zi 和 zz 表示 两 
个 正 态 分 布 中 哪个 被 用 于 产生 值 x;。 确 切 地 讲 , zj 在 x; 由 第 j 个 正 态 分 布 产 生 时 值 为 1, 否则 
为 0。 这 里 ， x; 是 实 便 的 描述 中 已 观察 到 的 变量 ， z; 和 zj 是 隐藏 变 重 。 如 果 za 梓 zi 的 值 可 
知 ,就 可 以 用 式 (6.27) 来 解决 均值 pt 和 po. MM EA, BRI RRA EM 算法 。 

EM 算法 应 用 于 我 们 的 均值 问题 ,目的 是 搜索 一 个 极 大 似 然 假设 ,方法 是 根据 当前 假设 
“on .pi) 不 断 地 再 估计 隐藏 变量 z， 的 期 望 值 。 然 后 用 这 些 陷 藏 变量 的 期 望 值 重新 计算 假 大 
似 然 假设 。 这 里 首先 描述 这 一 实例 化 的 EM 算法 ,以 后 将 给 出 EM 算法 的 一 般 形 式 。 
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为 了 估计 图 6-4 中 的 两 个 均值 ,EM 算法 首先 将 假设 初始 化 为 hh= (a, pr) BP u 和 
p 为 任意 的 初始 值 。 然 后 重复 以 下 的 两 个 步骤 来 重 估计 下 ,直到 该 过 程 收 伍 到 一 个 稳定 的 天 
值 。 
步骤 1: 计算 每 个 隐藏 变量 2, 的 期 望 值 BL x,], 假 定 当前 假设 h=, po) ROE 
步 台 2: 计 算 一 个 新 的 极 大 似 然 假 设 h = e's pl) ,假定 每 个 隐藏 变量 。 所 取 的 值 为 第 
1 步 中 得 到 的 期 望 值 Elz; |, RGR h= (1, pe) FRARM BB A’ = 
(u'o #2) ,然后 循环 。 
现在 考察 第 一 步 是 如 何 实现 的 。 步 骤 1 要 计算 每 个 z; 的 期 望 值 。 此 Ef z,] 正 是 实例 x, 
虫 囊 1 个 正 态 分 布 生成 的 概率 : 
(x = x, | uw = uw) 
El zi | 三 + i 
Dy PU = x; 1 = fy) 


-一 一 天 
e Ig? : 了 


因此 ,第 一 步 可 由 将 当前 值 (zs ,pz》 和 已 知 的 x 代入 到 上 式 中 实现 。 

在 第 二 步 中 ,使 用 第 一 步 中 得 到 的 El zj 来 导出 一 新 的 级 大 似 然 假 设 h = Cp i? PESE 
如 后 面 将 讨论 到 的 ,这 时 的 极 大 似 然 根 设 为 : 

Diy eee 
7 2 ebay) 

注意 ,此 表达 式 类 位于 式 (6.28) 中 的 样本 均值 , 它 用 于 从 单个 正 态 分 布 中 估计 e BHR 
达 式 只 是 对 pj 的 加 权 样 本 均值 ,每 个 实例 由 第 PEAS PE a Ez, ] 来 权衡 。 

上 面 佑 计 直 个 正 态 分 布 均值 的 算法 描述 了 下 M FEWER: MRR PRA 
变量 ,而 这 些 变量 的 期 望 值 再 被 用 于 改进 假设 。 可 以 证 明 , 在 此 算法 第 一 次 循环 中 ,EM 算法 
能 使 位 然 PLD18) 增 加 ,除非 已 (万 15) 已 达到 局 部 最 大 。 因 此 该 算法 收 伍 到 对 于 (za ，42) 的 
一 个 局 部 最 大 似 然 假设 。 


6.12.2 EM 算法 的 一 般 囊 述 


上 而 的 EM 算法 针对 的 是 估计 混合 正 态 分 布 均值 的 问题 。 更 为 一 般 的 情况 是 :EM 算法 
可 用 于 许多 问题 框架 ,其 中 需要 估计 一 组 描述 基准 概率 分 布 的 参数 9 ,只 给 定 了 由 此 分 布 产 生 
的 全 部 数据 中 能 观察 到 的 一 部 分 。 在 上 面 的 二 均值 阿 题 中 , 感 兴趣 的 参数 为 0 = Cy, er). 1 
全 部 数据 为 三 元 组 (x;， čija za) WR Xj 可 观察 到 。 一 般 今 x = (x1, s.a Eig ARETE |e] 
样 的 实例 中 未 观察 到 的 数据 ,并 令 Y= XOUZ 代表 全 体 数 据 。 我 们 注意 到 未 观察 到 的 Z 可 被 
看 作 一 个 随机 变量 , 它 的 概率 分 布依 束 于 未 知 参 数 8 MEMAR X, GEZ, 了 是 一 个 随 
机 变量 ,因为 它 是 由 随机 变量 Z 来 定义 的 。 在 本 节 的 后 续 部 分 ,将 描述 EM 算法 的 一 般 形式 。 
使 用 来 代表 参数 8 的 假设 值 ,而 六 代表 在 EM 算法 的 每 次 迭代 中 修改 的 假设 。 

EM 算法 通过 搜寻 使 ELinP(Y1h')] 最 大 的 h RFR KERRE k EHAA E 
Y 所 遵循 的 概率 分 布 上 计算 ,此 分 布 由 未 知 参 数 确定 。 考 虑 此 表达 式 究 竟 意 味 了 什么 。 首 
先 , P{Y1h') 是 给 定 假 设 k TARRE Y 的 似 然 度 。 其 合理 性 在 于 我 们 要 寻找 一 个 有 ' 使 该 
量 的 某 函 数值 最 火化 。 其 次 ,使 该 量 的 对 数 nP Yk ) 最 大 化 也 使 PC 了 18') 最 大 化 ,如 已 经 
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介绍 过 的 那样 。 第 三 ,引入 期 望 值 E[InP(Y18')] 是 因为 全 部 数据 了 本 身 也 是 一 个 随机 变 
量 。 已 知 全 部 数据 Y 是 观察 到 的 工 和 未 观察 到 的 2 的 合并 ,我 们 必须 在 未 观察 到 的 Z 的 可 
能 值 上 取 平 均 并 以 相应 的 概率 为 权 值 。 换 言 之 ,要 在 随机 变量 了 避 循 的 概率 分 布 上 取 期 望 值 
E[lInP(Y1h')]。 该 分 布 由 完全 已 知 的 于 值 加 上 Z 服 从 的 分 布 来 确定 。 

Y 遵从 的 概率 分 布 是 什么 呢 ? 一 般 来 说 不 知道 此 分 布 ,因为 它 是 由 待 估计 的 8 参数 确定 
的 。 然 而 ,EM 算法 使 用 其 当前 的 假设 有 代 痊 实际 参数 8, 以 估计 YY 的 分 布 。 现 定义 一 个 函数 
QO(h' lh), EHE ELinPCY 1A) 作为 的 一 个 函数 维 出 ,在 8 = 有 和 全 部 数据 了 的 观察 到 的 
部 分 的 假定 之 下 。 

OCA Th) = Elinp( Yik )Ih, X] 

将 0 函数 写成 0(h'1h) 是 为 了 表示 其 定义 是 在 当前 假 雄 有 等 于 8 的 假定 下 。 在 EM 算 
法 的 一 般 形式 里 , 它 重 复 以 下 两 个 步 又 寺 至 收 使 。 

步 双 1: 估计 ( 占 ) 步 驴 : 使 用 当前 假设 h 和 观察 到 的 数据 半 来 估计 上 的 概率 分 布 以 计算 

OCh' th). 
OCh TA) ElnP YIR IA, X] 

PM2RAR MPR BA h BRO O 函数 最 大 化 的 假设 有 ': 

heargmaxQ ( h' lh) 

HAR 0 连续 时 ,了 上 BIE OP Rp PCY IADB ba. BIR ARA 
单个 的 最 大 值 时 ,EM BERTI POT eR ARTA. RE RARER 
到 一 个 局 部 最 大 值 。 因 此 , EM 与 其 他 最 优化 方法 有 同样 的 局 限 性 ,如 第 4 章 讨论 的 梯度 下 
降 Re Fe SE He EE 


6.12.3 天 均值 算法 的 推导 
为 说 明 一 般 的 EM 算法 ,我们 用 它 来 推导 第 6.12.1 节 中 估计 上 个 正 态 分 布 混合 均值 的 算 


法 。 如 上 所 讨论 ,均值 算法 是 为 了 估计 个 正 态 分 布 的 均值 8= Ce, os od. 已 有 的 数 
据 为 观察 到 的 五 = 1(x)| ,这 里 的 隐藏 变量 Z = |z ..., za?1 表 示 上 个 正 态 分 布 中 哪 一 个 
用 于 生成 Kio 


要 应 用 EM 算法 ,必须 推导 出 可 用 于 k 均值 问题 的 表达 式 OC Ih). 首先 推导 出 mp 
(Y18) 的 表达 式 。 注 意 ,每 个 实例 yila zi oo a BAE p(y lh RSE: 
ey aH) 
ply, | h’) = plgis Zr...» ZA | A’) = ae 
要 验证 此 式 ,必须 注意 只 有 一 个 zj 值 为 1, 其 他 的 为 0。 因 此 ,该 式 给 出 了 由 所 选 的 正 态 
分 布 生成 的 *; 的 概率 分 布 。 已 知 单个 实例 的 分 布 piril RAA m 个 实例 的 概率 的 对 数 
InP( YIKA: 





InP(Y | h') = in] p(y |B’) 


= dj Inp ly } h’) 
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最 后 ,必须 在 了 所 遵从 的 概率 分 布 上 ,也 就 是 了 的 未 被 观察 到 的 部 分 闻 遵 从 的 概率 分 布 
上 ,计算 此 InP(Y 了 18') 的 均值 。 注 意 , 上 面 InP( 了 1h') 的 表达 式 为 这 些 zi 的 线性 图 数 。 一 般 
情况 下 ,对 z 的 任意 线性 函数 f(z) 来 说 ,下 面 的 等 式 成 立 ; 
E( F(z)]= fC Ez) 
根据 此 等 式 ,可 得 : 


E[InPCY | h')] = 中 > ee = FA zyl x, i ei]| 








Slez ! a 





CCR h) = > n =S ee a pi) 
r=] 2ra J 了 = 1] 

其 中 ,各 = ups cattle) ol pent h 和 观察 到 的 数据 X 计算 得 出 。 如 前 
所 讨论 d 


Elz,] = Secu (6.29) 
因此 ,EM 算法 的 第 1 步 是 (估计 步 ) 基 于 估计 的 El zj ] 项 定义 了 0 BK. B2LGK 
化 步 ) 接 着 寻找 使 此 0 ROR AMY)... eee 在 当前 例子 中 : 





1 1 sn 8 
argmax Q ( h' Ih) = argmax >) {In -== = 7g 2 El ay] = pe 


= armin 3) D EL sy |x; — H}; J (6.30) 


因此 ， 这 里 的 极 大 似 然 假 设 使 平方 误差 的 加 权 和 最 小 化 了 ， 其 中 每 个 实例 x, 对 误差 的 页 
the’ 权 为 E[ zs]。 由 等 式 (6.30) 给 出 的 量 是 通过 将 每 个 六; 设 为 加 权 样 本 均值 来 最 小 化 。 


Do” EL ayla; 
Dy, Eley] 
(6.29) AR(6. IDEM TS 6.12.1 节 中 定义 的 均值 算法 中 的 两 个 步骤 。 


6.13 小 结 和 补充 读物 


本 章 的 要 操 包 括 : 

© 概率 学 习 方 法 利用 (并 且 要 求 ) 关 于 不 同 假设 的 先 验 概率 以 及 在 给 定 假设 时 观察 到 不 同 
数据 的 概率 的 知识 。 贝 叶 斯 方法 则 提供 了 概率 学 习 方 法 的 基础 。 贝 叶 斯 方法 还 可 基于 
这 些 先 验 和 数据 观察 假定 ,赋予 每 个 候选 假设 一 个 后 验 概率 。 

e 贝 叶 斯 方法 可 用 于 确定 在 给 定数 据 时 最 可 能 的 假设 一 一 极 大 后 验 概率 (MAP) 假 设 。 
它 比 其 他 的 假设 更 可 能 成 为 最 优 假设 。 

© 贝 叶 斯 最 优 分 类 器 将 所 有 假设 的 预测 结合 起 来 ,并 用 后 验 概率 加 权 , 以 计算 对 新 实例 的 
最 可 能 分 类 。 

© 朴 紊 贝 叶 斯 分 类 器 是 在 许多 实际 应 用 问题 中 很 有 效 的 一 种 眉 叶 斯 学 习 方 法 。 它 之 所 以 


(6.31) 
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BE AANA (naive) BAA EMRE: BEERS ERAN TR AFR. 
当 该 假定 成 立时 ,朴素 贝 叶 斯 分 类 器 可 输出 MAP 分 类 。 即 使 此 假定 不 成 立 ,在 学 习 分 
类 文本 的 情况 下 ,朴素 贝 上 时 斯 分 类 通常 也 是 很 有 效 的 。 贝 叶 斯 信念 网 为 属性 的 子 集 上 上 
的 一 组 条 件 独 立 性 假定 提供 了 更 强 的 表达 能 力 。 
岁 叶 斯 推理 框架 可 对 其 他 不 直接 应 用 贝 叶 斯 公式 的 学 习 方法 的 分 析 提 供 理论 基础 。 例 
如 ,在 特定 条 件 下 学 习 一 个 对 应 于 极 大 似 然 假设 的 实 值 目标 函数 时 , 它 可 使 误差 平方 最 
小 化 。 | 
s 最 小 措 述 长 度 准则 建议 选取 这 样 的 假设 , 它 使 假设 的 描述 长 度 和 给 定 假 设 下 数据 的 撞 
述 长 度 的 和 最 小 化 。 贝 叶 斯 公式 和 信息 论 中 的 基本 结论 可 提供 此 准则 的 根据 。 
s 在 许多 实际 的 学 习 问 题 中 , 某 些 相关 的 实例 变量 是 不 可 观察 到 的 。EM 算法 提供 了 一 
个 很 通用 的 方法 , 当 存 在 隐藏 变量 时 进行 学 习 。 该 算法 开始 于 一 个 任意 的 初始 假设 。 
然后 从 代 地 计算 隐藏 变量 的 期 望 值 (假定 当前 假设 是 正确 的 ), 再 重新 计算 极 大 似 然 假 
设 ( 息 定 隐藏 变量 等 于 第 1 步 中 得 到 的 期 望 值 ;。 这 一 过 程 收敛 到 一 个 局 部 的 极 大 似 然 
假设 以 及 隐藏 变量 的 估计 值 。 
在 概率 和 统计 方面 有 许多 很 好 的 介绍 性 文章 ,如 Casella & Berger (1990)。 几 本 快速 参考 类 
书籍 (如 Maisel 1971, Speigel 1991) 也 对 机 器 学 习 相 关 的 概率 和 统计 理论 提供 了 很 好 的 阐述 。 
对 贝 时 斯 分 类 器 和 最 小 平方 误差 分 类 器 的 基本 介绍 由 Duda & Hart (1973) E , Domigos 
& Pazzanif1996) 分 析 了 在 什么 条 件 下 朴素 贝 呈 斯 方法 可 输出 最 优 的 分 类 , 即 司 其 独立 性 假定 
不 成 立时 (关键 在 于 在 什么 条 件 下 即使 相关 联 的 后 验 概率 佑 计 不 正确 也 可 输出 最 优 分 类 )。 
Cestnik (1990) 讨 论 了 使 用 m-i RAH RE. 
将 不 同 页 叶 斯 方法 与 决策 树 等 其 他 算法 进行 比较 的 实验 结果 可 在 Michie et al.(1994) 中 
找到 。Chauvin & Rumelhart (1995) 提 供 了 基于 反 向 传播 算法 的 神经 网 络 的 贝 叶 斯 分 析 。 
对 最 小 描述 长 廊 淮 风 的 讨论 可 参考 Rissanen (1983, 1989}, Quinlan & Rivestt EORS ) Ht 
述 了 其 使 用 以 避免 决策 树 的 过 度 拟 合 。 
习题 
6.1 再 次 考虑 6.2.1 节 中 应 用 贝 叶 斯 规则 的 例子 。 假 定 医生 决定 对 该 病人 做 第 二 次 化 验 测 
试 ,而 且 化 验 结 果 也 为 正 。 根 据 这 两 次 测试 , cancer A concer 的 后 验 概率 是 多 少 ? 假 
定 两 个 测试 是 相互 独立 的 。 
6.2 在 6.2.1 节 的 例子 中 ,为 计算 癌症 的 后 验 概率 ,通过 将 P(+ | cancer ) Pcancer) 和 
P+ cancer )* P(— cancer ) 归 一 化 使 它们 的 和 为 1。 使 用 贝 叶 斯 公式 和 全 概率 公式 
( 见 表 6-1) 证 明 该 方法 是 正确 的 ( 即 这 样 的 归 一 化 可 以 得 到 P(cancer | + ) 的 正确 值 )。 
6.3 考虑 下 面 的 概率 学 习 算 法 Finds , 它 输出 一 个 极 大 一 般 化 的 一 致 翁 设 (例如 ,变型 空间 
的 某 个 极 大 一 般 成 员 )。 
(a) 给 出 PCh) 和 PCD1) 的 分 布 ,以 使 Find6 保证 输出 MAP 假设 。 
(b) 给 出 PC(h)} 和 PCDI18) 的 分 布 ,以 使 FindG 不 能 保证 输出 MAP 假设 。 
(c) 给 出 PCh) 和 PCD14) 的 分 布 ,以 使 Find6 保证 输出 ML 假设 但 不 是 MAP 假 
设 。 : 
6.4 在 6.3 节 中 的 概念 学 习 分 析 中 ,假定 实例 序列 (x1...zx，) 是 固定 的 。 因 此 ,在 推 守 
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6.5 


6.6 


re rr 


PLD14) 表 达 式 时 只 需 考 虚 考 察 到 目标 值 序列 (qi ... dn) 的 概率 。 考 虑 更 一 般 的 情况 ， 
即 实例 顺序 不 固定 ,但 是 它们 是 从 实例 空间 直上 定义 的 某 概 率 分 布 上 独立 抽取 的 。 数 
据 六 现在 必须 被 描述 为 一 组 序 偶 上 kz， d,>} ,而 PC 15) 必须 能 反映 遇 到 特定 实例 *， 
的 概率 以 及 目标 值 d; 的 概率 。 证 明 在 此 一 般 框 架 中 式 (6.5) 仍 然 成 立 。 提 东 : 和 参考 6.5 
节 中 的 分 析 。 
考虑 将 最 小 描述 长 度 淮 则 应 用 到 一 个 假设 空间 豆 , 它 包含 至 多 n 个 布尔 属性 的 合 取 
(如 ; Sunny A Warm)。 假 定 每 个 假设 的 编码 为 简单 地 将 假设 中 出 现 的 属性 列举 出 来 ， 
其 中 为 了 编码 任意 一 个 ”布尔 属性 所 需 位 数 为 logsn。 设 想 给 定 假设 下 样 例 编码 方式 
为 ; 著 样 例 与 假设 一 致 编码 需 0 位 ,否则 用 ogm 位 (表示 m 个 样 例 中 哪些 被 误 分 类 了 
一 一 正确 的 分 类 可 由 该 假设 预测 的 值 的 否定 得 到 )。 

(a) 按照 最 小 描述 长 度 准 则 , 写 出 要 被 最 小 化 的 量 的 表达 式 。 

(b) 是 否 可 能 建立 一 组 训练 数据 ,使 存在 一 个 一 致 假设 ,但 MDL 选择 了 一 个 较 不 一 

致 的 假设 。 如 果 是 这 样 ,给 出 这 样 的 训练 集 ,否则 解释 为 什么 。 

(e) 给 出 PCA) PLD14) 的 概率 分 布 以 使 上 面 的 MDL 算法 输出 MAP 假设 。 
考虑 第 6.9.1 节 中 PlayTennis 问题 的 朴素 由 时 斯 分 类 器 ,用 贝 叶 斯 信念 网 画 出 其 中 使 
用 的 条 件 独 立 件 假定 。 给 出 与 结 点 Wind 相关 联 的 条 件 福 率 表 。 


参考 文献 


Buntine W. L. (1994). Operations for leaming with graphical models. Journal of Artificial intelligence 
Research, 2, 159-225. http://www.cs, washington.edu/research/jair/home.html. 

Casella, G., & Berger, R. L. (1990). Statistical inference. Pacific Grove, CA: Wadsworth & 
Brooks/Cole. 

Cestnik, B. (1990). Estimating probabilities: A crucial task in machine leaming. Proceedings of the 
Ninth European Conference on Artificial intelligence (pp. 147-149). London: Pitman. 
Chauvin, Y., & Rumethart, D. (1995). Backpropagation: Theory, architectures, and applications, 

(edited collection). Hillsdale, NJ: Lawrence Erlbaum Assoc. 

Cheeseman, P., Kelly, J., Self, M., Stutz, J., Taylor, W., & Freeman, D, (1988). AuToCLass: A 
bayesian classification system. Proceedings of AAAI 1988 (pp. GO7-6f t). 

Cooper, G. (1990). Computational complexity of probabilistic inference using Bayesian belief net- 
works (research note). Artificial intelligence, 42, 393-405. 

Cooper, G., & Herskovits, E. (1992). A Bayesian method for the induction of probabilistic networks 
from data. Machine Learning, 9, 309-347. 

Dagum, P., & Luby, M. (1993). Approximating probabilistic reasoning in Bayesian belief networks 
is NP-hard. Artificial intelligence, HL), 141-153. 

Dempster, A. P., Laird, N. M., & Rubin, P. B. (1977). Maximum likelihood from incomplete data 
via the EM algorithm. Journal of the Royat Statistical Society, Series B, 39(1), 1-38. 
Domingos, P., & Pazzani, M. (1996). Beyond independence: Conditions for the optimality of the sim- 
ple Bayesian classifier. Proceedings of the [3th international Conference on Machine Learning 

(pp. 105-112). 

Duda, R. O.. & Hart, P. E. (1973). Pattern classification and scene analysis. New York: John Wiley 
& Sons. 

Haussler, D., Kearns, M., and Schapire, R. E. (1994). Bounds on the sample complexity of Bayesian leaming 
usinginformation theory and the VC dimension. Machine learrung, 14, pg. 83. 

Hearst, M., & Hirsh, H. (Eds.) (1996). Papers from the AAAI Spring Symposium on Machine 
Learning in Information Access, Stanford, March 25-27. http://www. parc. xerox comvistl 
projects/miia/ 

Heckerman, D., Geiger, D., & Chickering, D. (1995) Leaming Bayesian networks: The combination 
of knowledge and statistical data. Machine Learning, 20, 197. Kluwer Academic Publishers. 


ww ai bbt.com TAONWOO|A 








POF RIRE 143 


-CO CT 一 


Jensen, F. V. (1996). An introduction to Bayesian networks, New York: Springer Verlag. 

Joachims, T. (1996). A probabilistic analysis of the Rocchio algorithm with TFIDF for text catego- 
rization, (Computer Science Technical Report CMU-CS-96-118}. Carnegie Mellon University. 

Lang, K. (1995). Newsweeder: Learning to filter netnews. In Preditis and Russell (Eds.), Proceedings 
of the i2th International Conference on Machine Learning (pp. 331-339). San Francisco: 
Morgan Kaufmann Publishers. 

Lewis, D. (1991). Representation and learning in information retrieval, (Ph.D. thesis), (COINS Tech- 
nical Report 91-93). Dept. of Computer and Information Science, University of Massachusetts. 

Madigan, D., & Rafferty, A. (1994). Model selection and accounting for model uncertainty in graphi- 
cal models using Occam’s window. Journal of the American Statistical Association, 89, 1535- 
1546, 

Maisel, L. (1971). Probability, statistics, and random processes. Simon and Schuster Tech Outlines. 
New York: Simon and Schuster. 

Mehta, M., Rissanen, J., & Agrawal, R. (1995). MDL-based decision tree pruning. In U. M. Fayyard 
and R. Uthurusamy (Eds.), Proceedings of the First international Conference on Knowledge 
Discovery and Data Mining. Menlo Park, CA: AAAI Press. 

Michie, D., Spiegelhalter, D. J., & Taylor, C. C. (1994). Machine learning, neural and statistical 
classification, (edited collection). New York: Ellis Horwood. 

Opper, M., & Haussler, D. (1991). Generalization performance of Bayes optimal prediction algorithm 
for leaming a perception. Physical Review Letters, 66, 2677-268 1. 

Pearl, J. (1988). Probabilistic reasoning in intelligent systems: Networks of plausible inference. San 
Mateo, CA: Morgan-Kaufmann. 

Pradham, M., & Dagum, P. (1996). Optimal Monte Carlo estimation of belief network inference. In 
Proceedings of the Conference on Uncertainty in Artificial Intelligence (pp. 446—453). 
Quinlan, J. R., & Rivest, R. (1989). Inferring decision trees using the minimum description length 

principle. information and Computation, 80, 227—248. 

Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech 
recognition. Proceedings of the IEEE, 77(2), 257-286. 

Rissanen, J. (1983). A universal prior for integers and estimation by minimum description length. 
The Annals of Statistics, 11(2), 416-431, 

Rissanen, J., (1989). Stochastic complexity in statistical inquiry. New Jersey: World Scientific Pub. 

Rissanen, J. (1991). Information theory and neural nets. IBM Research Report RJ 8438 (76446), 
IBM Thomas J. Watson Research Center, Yorktown Heights, NY. 

Recchio, J. (1971). Relevance feedback in information retrieval. In The SMART retrieval system: 
Experiments in automatic document processing, (Chap. 14, pp. 313-323). Englewood Cliffs, 
Ni: Prentice-Hall. 

Russell, $., & Norvig, P. (1995). Artificial intelligence: A modern approach. Englewood Ctiifs, NJ: 
Prentice-Hall. 

Russell, $., Binder, J., Koller, D., & Kanazawa, K. (1995). Local learning in probabilistic networks 
with hidden variables. Proceedings of the i4th International Joint Conference on Artificial 
Intelligence, Montreal. San Francisco: Morgan Kaufmann. 

Salton, G. (1991). Developments in automatic text retrieval. Science, 253, 974-979. 

Shannon, C. E., & Weaver, W. (1949). The mathematical theory of communication. Urbana: Univer- 
sity of Illinois Press. 

Speigel, M. R. (1991). Theory and problems of probability and statistics. Schaum's Outline Series. 
New York: McGraw Hill. 

Spirtes, P., Glymour, C., & Scheines, R. (1993). Causation, prediction, and search. New York: 
Springer Verlag. http:/fhss.cmu.edu/html/departments/philosophy/TETRAD.BOOK/book.html 


ww ai bbt.com TAONWOO|A 





Ble 计算 学 习 理 论 


本 章 从 理论 上 刻画 了 若干 类 型 的 机 器 学 习 问 题 中 的 困难 和 寿 十 类 型 的 机 答 学 习 算 法 的 能 
H. 该 理论 致力 于 回答 如 下 的 问题 ， 在 什么 样 的 条 件 下 成 荔 的 学 习 是 可 能 的 ?和 “在 什么 条 
件 下 某 个 特定 的 学 习 算 法 可 保证 成 功 运行 ?”。 为 了 分 析 学 习 算法 ,这 里 考虑 了 两 种 框 染 。 在 
可 能 近似 正确 (PAC) 的 框架 下 ,我 们 确定 了 若 十 假设 类 别 ,判断 它 们 能 否 从 多 项 式 数 量 的 训练 
样 例 中 学 习 得 到 。 我 们 还 定义 了 一 个 对 假设 空间 的 自然 度量 ,由 它 可 以 界定 归纳 学 习 所 需 的 
训练 样 例 数目 。 在 出 错 界限 { mistake bound) 框 梁 下 .我 们 考查 了 一 个 学 习 髓 在 确定 正确 假设 
前 可 能 产生 的 训练 错误 数量 。 


7.1 简介 


在 研究 机 器 学 习 过 程 中 ,很 身 然 地 想 知 道学 习 般 机箱 的 或 非 机 般 的 ) 应 遵循 什么 样 的 规 
则 。 是 否 可 能 独立 于 学 习 算 法 确定 学 习 问 题 中 国有 的 难度 ?能 否 知 道 为 保证 成 功 的 学 习 有 多 
少 训练 是 必要 的 或 充足 的 ?如 果 学 习 髓 被 允许 向 施 教 者 提出 查询 ,而 不 是 观察 训练 集 的 随机 
样本 ,会 对 所 需 样 例 数目 有 怎样 的 影响 ? 能 否 刻 画 出 学 避 髓 在 学 到 目标 函数 前 会 有 多 少 次 出 
错 ? 能 否 刻 画 出 一 类 学 习 问 题 中 国有 的 计算 复杂 度 ? 
虽然 对 所 有 这 些 问 题 的 一 般 回 答 还 未 知 ,但 是 不 完整 的 学 习 计 算 理 论 已 经 开始 出 更 。 本 
章 阐述 了 该 理论 中 的 一 些 关 键 结论 ,并 提供 了 在 特定 问题 下 一 些 问题 的 答案 。 这 里 我 们 着 重 
讨论 只 给 定 自 标 函 数 的 训练 样 例 和 候选 假设 空间 的 条 件 下 ,对 该 未 知 的 目标 函数 的 归纳 学 刁 
问题 。 在 这 样 的 框架 下 ,主要 要 解决 的 问题 如 :需要 多 少 训练 样 例 才 足以 成 功 地 学 习 到 目标 孙 
数 以 及 学 习 器 在 达到 目标 前 会 出 多 少 次 错 。 后 面 将 对 这 些 问 题 提出 定量 的 上 下 界 , 这 基于 学 
习 问 题 的 如 下 属性 : 
eS DRM SRN RRNA ARE 
s 目标 概念 须 近 似 到 怎样 的 精度 
$ 学 习 器 输出 成 功 的 假设 的 可 能 性 
© 训练 样 例 提供 给 学 习 髓 的 方式 
本 章 的 大 部 分 将 不 会 著 重 于 单独 的 学 习 算法 ,而 是 在 较 宽广 的 学 习 算 法 类 别 中 刻画 所 考 
虑 的 假设 空间 以 及 训练 样 例 的 提供 方式 等 。 我 们 的 目标 是 为 了 回 管 以 下 的 问题 : 
© 祥 本 复杂 度 (Sample complexity) :学 习 器 要 收敛 到 成 功 假设 (以 较 高 的 概率 ), 需 要 多 少 
训练 样 例 ? 
计算 复杂 度 ( Computational complexity ) :学 习 器 要 收效 到 成 动 假设 ! 以 较 商 的 概率 ) 需 要 
多 大 的 计算 量 ? 
e 出 错 界 限 (Mistake bound): 首 成 功 收 化 到 一 个 假设 前 ,学 习 髓 对 训练 样 例 的 错误 分 类 有 
BANK? 
注意 ,为 了 解决 这 些 问题 需要 许多 特殊 的 条 件 设 定 。 例 如 ,有 许多 方法 来 指定 对 于 学 习 兹 
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什么 是 “成 功 的 "。 一 种 可 能 的 判断 方法 是 ;学习 器 是 否 输出 等 于 目标 概念 的 假设 。 另 一 种 方 
法 是 :只 要 求 输出 的 假设 与 目标 概念 在 多 数 时 间 内 意见 一 致 ,或 是 学 习 器 通常 会 输出 这 样 的 假 
设 。 与 此 类 似 ,还 必须 指定 学 习 器 是 如 何 获得 训练 样 例 的 。 可 以 指定 训练 样 例 由 一 个 施 教 者 
给 出 ,或 由 学 习 器 自己 实验 获得 ,或 按照 某 过 程 随机 地 生成 而 不 受 学 习 器 的 控制 。 可 以 预料 ， 
对 上 述 问 题 的 回答 依赖 于 我 们 所 考虑 的 特定 框架 或 学 习 模型 。 

本 章 的 后 续 内 容 安排 如 下 :7.2 节 介 绍 可 能 近似 正确 (PAC) 学 习 框 架 。7.3 节 在 此 PAC 
框架 下 分 析 了 几 种 学 习 算法 的 样本 复杂 度 和 计算 复杂 度 。7.4 节 介绍 了 假设 空间 复杂 度 的 一 
个 重要 度量 标准 , 称 为 YC HE IE PAC 分 析 扩 展 到 假设 空间 无 限 的 情况 。7.5 节 介 绍 了 出 
错 界限 模型 ,并 提供 了 前 而 章节 中 几 个 学 习 算 法 出 错 数量 的 界限 。 最 后 ,介绍 了 加 权 多 数 算 
法 , 它 是 一 个 结合 多 个 学 习 算 法 来 产生 合并 的 预测 的 实用 算法 ,还 介绍 了 该 算法 的 理论 出 错 界 
限 。 


7.2 可 能 学 习 近 似 正确 假设 


本 节 我 们 考虑 学 习 问 题 的 一 种 特殊 框架 , 称 为 可 能 近似 正确 《probabliy approximately cor- 
reet，PAC) 学 习 模型 。 首 先 我 们 指定 PAC 学 习 模 型 适用 的 问题 ,然后 分 析 在 此 PAC 模型 下 学 
习 不 同类 别 的 目标 前 数 需 要 多 少 训练 样 俩 和 多 大 的 计算 量 。 为 简明 起 见 ,这 里 的 讨论 将 限制 
在 学 习 布 尔 值 概念 ,县 训练 数据 是 无 躁 声 的 。 然 而 ,许多 结论 可 扩展 到 更 一 般 的 情形 ,如 学 尺 
实 值 目标 函数 {比如 , Natarajan 1991 ) ,或 从 某 种 有 噪声 数据 中 进行 学 习 ( 例 如 , 见 Laird 1988, 
Kearns & Vazirani 1994), 


7.2.1 问题 框架 


同 前 而 的 章节 一 样 , 令 广 代 表 所 有 实例 的 集合 ,目标 函数 在 其 土 定义 。 例 如 , 支 可 表示 所 
有 人 的 集合 ,每 个 人 描述 为 属性 age ( young 或 old) # height (short B tall), F C NRF 
器 要 学 习 的 目标 概念 集合 。C 中 每 个 目标 概念 c 对 应 于 无 的 某 个 子 集 或 一 个 等 效 的 布尔 函数 
c: X0, il Ai, c 中 一 个 目标 郑 数 o 为 概念 ;" 是 滑雪 的 人 ”。 者 x 是 c 的 正 例 , 则 
c(x)=1; 车 x 为 反例 , 则 cla) =0. 

假定 实例 按照 某 概率 分 布 多 从 X 中 随机 产生 。 例 如 多 可 以 是 从 某 体育 用 品 商 店 走出 来 
的 人 这 样 一 个 实例 分 布 。 一 般 , 多 可 为 任何 分 布 , 而 且 它 对 学 习 器 是 未 知 的 。 对 于 织 所 要 求 
的 是 它 的 稳定 性 , 即 该 分 布 不 会 随时 间 变 化 。 训 练 样 例 的 生成 按照 多 分 布 随 机 抽取 实例 x , 然 
后 x 及 其 目标 值 c{ sx ) 补 提供 给 学 习 项 。 

学 习 器 工 在 学 习 上 自 标 概念 时 考虑 可 能 假设 的 集合 是。 例如, 可 为 所 有 能 由 属性 age 各 
height 的 合 取 表示 的 假设 集合 。 在 观察 了 一 系列 关于 目标 概念 。 的 的 训练 样 例 后 ,三 必须 从 
H 中 输出 其 假设 产 , 它 是 对 e 的 悟 计 。 为 公平 起 见 , 我 们 通过 在 从 中 抽取 的 新 实例 上 的 性 
能 来 评估 L 是 否 成 功 。 抽 取 过 程 按 照 分 布 统 即 与 产生 训练 数据 相同 的 概率 分 布 。 

在 此 框架 下 ,我 们 感 兴趣 的 是 刻画 不 同学 习作 工 的 性 能 ,这 些 学 习 器 使 用 不 同 很 设 空 间 
万 ,并 学 习 不 同类 别 的 C 中 的 目标 概念 。 由 于 我 们 要 求 工 足 够 一 般 , 以 至 可 以 从 C 中 学 到 任 
何 目标 概念 而 不 管 训练 样 例 的 分 布 如 何 。 所 以 ,我 们 经 常会 对 C 中 所 有 可 能 的 目标 概念 和 所 
有 可 能 的 实例 分 布 多 进行 最 差 情况 的 分 析 。 
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7.2.2 和 假设 的 错误 率 


为 了 描述 学 习 器 输出 的 假设 h 对 真实 目标 概念 的 帝 近 程度 ,首先 要 定义 很 设 OTE 
fA Sc 和 实例 分 布 多 的 真实 错误 率 (true error)。 非 形式 的 描述 是 :h 的 真实 错误 率 为 应 用 上 h 
到 将 来 按 分 布 多 抽取 的 实例 时 的 期 望 的 错误 率 。 实 际 上 第 5 章 已 经 定义 了 的 真实 错误 率 。 
为 方便 起 见 ,这 里 重 述 一 下 该 定义 ,使 用 e 表示 布尔 目标 函数 。 

定义 :假设 4 的 关于 目标 概念 c 和 分 布 多 的 真实 错误 率 (tme error) A h 误 分 类 根据 多 随 
机 抽取 的 实例 的 概率 。 

error h) = Prie(x) £ h(x) ] 
这 里 ,符号 Pr 代表 在 实例 分 布 2 上 的 概率 。 


图 7-1 显示 了 该 错误 率 的 定义 。 概 念 “ 和 被 表示 为 X 中 标 为 正 例 的 实例 集合 。 上 关于 
c 的 错误 率 为 随机 选取 的 实例 藩 人 六 和 *e 不 一 至 的 区 间 ( 即 它们 的 集合 差 ) 的 概率 。 注 意 , 销 
误 率 定义 在 整个 实例 分 布 之 上 ,而 不 只 是 训练 样 例 土 ,因为 它 是 在 实际 应 用 此 假 议 hh 到 后 续 
实例 上 时 会 时 到 的 嘉实 错误 率 。 
* Sf] X 





c 和 不 一 致 的 区 章 


关于 c 的 记 的 错误 率 为 一 个 随机 抽取 的 实 便 落 入 & Ale 对 它 的 分 类 不 一 - 致 的 区 间 的 概率 。+ 和 ~ 后 表示 正 及 
WIAA, EMA 关于 < 有 一 个 非 零 的 错误 率 , 尽 管 迄 今 为 止 和 < 在 所 有 5 个 训练 样 例 上 部 一 致 


图 7-1 关于 目标 概念 c 假 设 b 的 错误 率 


注意 ,此 错误 率 紧密 地 依赖 于 未 知 的 概率 分 布 a 例如 ,如 果 多 是 一 个 均匀 的 概率 分 布 ， 
它 对 中 每 个 实例 都 赋予 相同 的 概率 ,那么 图 7- 1 中 假设 的 错误 率 为 hh Ae 不 一 致 的 空间 在 
全 部 实例 空间 中 的 比例 。 然 而 ,如 果 多 恰好 把 hh 和 < 不一致 区 间 中 的 实例 赋予 了 很 高 的 概 
率 ,相同 的 h Ble 将 造成 更 高 的 错误 率 。 极 端 情况 下 , 若 多 对 满足 h(x)= clx) 的 所 有 实例 赋 
予 堆 概率 ,图 7-1 中 的 错误 率 将 为 1 ,而 不 论 h Me 在 多 少 实例 二 分 类 一 致 。 

BS TER AF ce 的 错误 率 不 能 直接 由 学 习 器 观察 到 。 工 只 能 观察 到 在 训练 样 例 土 产 
的 性 能 , 它 也 只 能 在 此 基础 上 选择 其 假设 输出 。 我 们 将 使 用 术语 训 昧 错误 率 (training error) 来 
指 代 训 练 样 例 中 被 误 分 类 的 样 例 所 占 比例 ,以 区 分 上 而 定义 的 真实 错误 替 。 这 里 关于 竺 导 
复杂 度 的 分 析 多 数 围绕 着 这 样 的 问题 ,“h 的 观察 到 的 训练 错误 率 对 真实 错误 率 error gl bP 
生 不 正确 估计 的 可 能 性 有 多 大 ? 。 

注意 ,此 问题 与 第 5 章 考 虑 的 问题 之 间 有 密切 联系 。 回 忆 在 第 5 章 中 定义 了 h 关于 样 例 
集合 5 的 样本 错误 率 (sample error) 为 样 例 集合 S PRA 误 分 类 的 样 例 所 占 比 例 。 上 而 定义 
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的 训练 错误 率 就 是 当 $ 为 训练 样 例 集 合 时 的 样本 错误 率 。 在 第 5 章 中 ,我 们 在 数据 样本 $ 独 
立 于 让 抽取 的 前 提 下 ,确定 样本 错误 率 对 估计 真实 错 放 率 产生 误导 的 概率 。 然 而 当 S 是 训练 
数据 集合 时 ,学 到 的 假设 则 依赖 于 $。 因 此 ,本 章 将 给 出 这 一 重要 的 特殊 情形 下 的 分 析 。 


7.2.3 PAC 可 学 习性 


我 们 的 且 标 是 刻画 出 这 样 的 目标 慨 念 ,它们 能 够 从 合理 数量 的 随机 抽取 训练 样 例 中 通过 
合理 的 计算 量 可 靠 地 学 习 到 。 

对 于 可 学 习性 怎样 进行 表述 呢 ? 一 种 可 能 的 选择 是 描述 为 了 学 习 到 使 errora h) =0 的 
假设 大 ,所 需 的 训练 样 例 数 。 遗 司 的 是 ,这 样 的 选择 是 不 可 行 的 ,原因 有 两 个 :首先 .除非 对 X 
中 每 个 可 能 的 实例 都 提供 训练 样 例 ( 一 个 不 实际 的 假定 ) ,否则 会 有 多 个 假设 与 训练 样 例 一 致 ， 
而 且 学 习 器 无 法 保证 选择 到 目标 概念 。 其 次 ,由 于 训练 样 例 是 随机 抽取 的 ,总 有 一 个 非 0 的 概 
率 使 得 学 习 器 面临 的 训练 样 例 有 误导 人 性 (例如 ,虽然 我 们 经 常 可 见 到 不 同 身 高 的 请 雪 者 ,但 在 
某 一 天 中 也 存在 这 样 的 机 会 ,所 有 训练 样 例 都 刚好 是 2 米 高 )。 

为 解决 这 两 个 困难 ,我们 用 两 种 方法 弱化 了 对 学 习 器 的 要 求 。 首 先 ,我 们 不 要 求学 习 器 和 输 
出 零 错 误 率 假设 ,而 只 要 求 其 错误 率 被 限定 在 某 常数 s 的 范围 内 ,s 可 为 任意 小 。 其 次 ,不 再 
要 求学 习 器 对 所 有 的 随机 抽取 样 便 序列 都 能 成 功 ,只 要 求 其 失败 的 概率 被 限定 在 某 个 常数 8 
的 范围 内 ,5 也 可 取 任 意 小 。 简 而 言 之 ,我 们 只 要 求学 习 器 可 能 学 习 到 一 个 近似 正确 的 很 设 ， 
因此 得 到 了 该 术语 “可 能 近似 正确 学 习 ” 或 PAC 学习。 

考虑 某 一 可 能 的 目标 概念 的 类 别 C 和 使 用 假设 空间 总 的 学 习 峰 上 。 非 形式 地 说 ,对 
中 任意 目标 概 念 e , 若 在 观察 到 合理 数目 的 训练 样 例 并 执行 了 合理 的 计算 量 后 , 工 以 概率 (1 - 
3) 输出 一 个 error h) <e 的 假设 天, 则 我 们 称 概念 类 别 C 是 可 以 被 使 用 豆 的 下 所 PACHA 
的 。 和 更 精确 的 定义 如 下 : 


定 愉 ;考虑 定义 在 长 度 为 n 的 实例 集合 下 上 的 一 概念 类 别 C, 学 习 基 上 使 用 假设 空间 日 。 
当 对 所 有 cl OC, X LMA Be 满足 0<e <172 以 及 人 满足 D<G<ilz2 时 ,学 习 器 工 将 以 
zp 1 -5 的 概率 输出 一 假设 hEHRH, 使 errora 上) ce XR C 是 使 用 于 的 上 可 PAC 学 习 
的 。 所 使 用 的 时 间 为 1/e Lan 以 及 size(c) 的 多 项 式 隙 数 。 


这 里 的 定义 要 求 上 满足 两 个 条 件 。 首 先 , L 必须 以 任意 高 概率 (1 - 5) 输出 一 个 错误 率 任 
意 低 (e) 的 假设 。 其 次 ,学 习 过 程 必 须 是 高 效 的 ,其 时 间 最 多 以 多 项 式 方式 增长 , 多项式 中 1/e 
11/8 定义 了 对 输出 假 投 要 求 的 强度 ,n 和 size tc) 则 定义 了 实例 空间 三 和 概念 类 别 C 中 国 
有 的 复杂 床 。 这 里 ,nm 为 天 中 实例 的 长 度 。 例 如 ,如 果实 例 为 个 布尔 值 的 合 取 ,那么 n= ko 
size( 6) 为 假定 对 和 采用 某 种 表示 方法 时 ,0 中 的 概念 c 的 编码 长 度 。 例 如 ,着 C 中 的 概念 为 
至 多 上 个 布尔 特征 的 合 取 ,每 个 概念 通过 列 出 合 取 式 中 的 特征 编号 来 描述 ,那么 size) ARK 
际 用 来 描述 e 的 布尔 特征 数量 。 

这 里 对 PAC 学 习 的 定义 看 上 去 内 关心 学 习 所 需 的 计算 资源 ,而 在 实践 中 ,通常 更 关心 所 
去 的 训练 样 例 数 。 然 而 这 两 者 是 紧密 相关 的 ;如 果 上 对 每 个 训练 样 例 需 要 某 最 小 处 理 时 间 ， 
MAYTE c ELTI PACHIA, LEMAS ARREA PAR. KRE, 
显示 某 目 标 概念 类 别 C 是 可 PAC 学 习 的 ,一 个 典型 的 途径 是 证 明 C 中 每 个 目标 概念 下 以 从 
多 项 式 数 量 的 训练 样 例 中 学 习 到 ,而 后 证 明 每 样 例 处 理 时 间 也 限制 于 多 项 式 级 。 
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在 继续 讨论 以 前 ,必须 指出 隐 含 在 PAC FYER- APRA REEE 
假定 了 学 习 器 的 假设 空间 总 包含 一 个 假设 , 它 与 6 中 每 个 目标 概念 可 有 任意 小 的 误差 。 这 
一 点 来 源 于 上 面 定义 中 要 求学 习 器 误 善 界限 ce 任意 接近 于 0 时 也 能 成 功 运 行 。 当 然 , 如 果 预 
先 不 知道 和, 将 很 难保 证 这 一 点 (对 于 一 个 从 图 像 中 识别 出 人 脸 的 程序 来 说 , C 是 什么 呢 ?) ， 
除非 下 到 为 三 的 者 集 。 如 第 2 章 指出 的 ,这 样 一 个 无 篇 的 总 将 不 会 从 合理 数量 的 训练 样 例 
中 泛 化 。 不 过 ,基于 PAC 学 习 模 型 的 结论 ,对 于 领会 不 同学 习 问 题 的 相对 复杂 度 以 及 泛 化 精 
度 随 着 训练 样 例 而 提高 的 比率 十 分 有 益 。 更 进一步 ,第 7.3.1 和 节 中 将 解除 这 一 严格 假定 ,以 考 
虑 学 习 器 不 预先 假定 目标 概念 形式 的 情况 。 


7.3 有 限 假设 空间 的 样本 复杂 度 


如 上 所 述 ,PAC 可 学 习性 很 大 程度 上 由 所 需 的 训练 样 例 数 确 定 。 随 者 问题 规模 的 增长 所 
带 来 的 所 需 训 练 样 例 的 增长 称 为 该 学 习 问 题 的 祥 本 复杂 度 (sample complexity) , 它 是 通常 最 感 
兴趣 的 特性 。 原 因 在 于 ,在 多 数 实际 问题 中 ,最 限制 学 习 器 成 功 的 因素 是 有 限 的 可 用 训练 数 
括 。 

这 里 将 样本 复杂 度 的 讨论 限定 于 一 类 非常 广泛 的 学 习 器 , 称 为 一 致 学 习 器 (consistent 
jearner) 。 一 个 学 习 器 是 一 致 的 (consistent) , 当 它 只 要 在 可 能 时 都 输出 能 完美 氢 合 训练 数据 的 
假设 。 由 于 我 们 通常 更 喜欢 能 与 训练 数据 拟 合 程 凑 更 商 的 假设 ,因此 要 求学 习 算法 具有 一 至 
性 是 合理 的 。 注 意 , 在 前 面 章节 中 讨论 的 很 多 学 习 器 (包括 第 2 章 中 的 所 有 学 习 算 法 ) 者 是 一 
PEMET 

是 否 能 独立 于 一 特定 的 算法 ,推导 出 任意 一 致 学 习 认 所 需 训 练 样 例 数 的 乔 限 呢 ?y 回 管 是 
肯定 的 。 为 进行 该 推导 ,需要 回顾 一 下 第 2 章 定 义 的 变型 空间 。 在 那里 变型 空间 VS, pI 
义 为 能 正确 分 类 训练 样 例 D 的 所 有 假设 hE 8 的 集合 : 

VSyp = {RE HI(Yix,c(x) ED (h(x) = e(x))} 

恋 型 空间 的 重要 意 兴 在 于 ,每 个 一 致 学 习 器 都 输出 一 个 属于 变型 空间 的 假设 ,而 不 论 有 怎 
样 的 实例 空间 不、 假设 空间 HW 或 训练 数据 已 。 原 因 很 简单 ,由 变型 空间 的 定义 ,Sr, bp 包含 8 
中 所 有 的 一 致 假设 。 困 此 ,为 界定 任意 一 个 致 学 习 器 所 需 的 桩 例 数 量 , 只 需要 界定 为 公证 变型 
空间 中 没有 不 可 接受 假设 所 需 的 祥 例 数量 。 下 面 的 定义 精确 地 描述 了 这 一 条 件 ( 见 Haussler 
1988): 


定义 :考虑 一 假设 空间 H, 目标 概念 “ RA OUR 的 一 组 训练 样 例如 。 当 TYSr.p 
中 每 个 假设 h ET c 和 多 错误 率 小 于 e 时 ,变型 空间 被 称 为 关于 c ADE e H exhausted) 
的 。 

(Whe VSp, pjerrorfh) <€ 

该 定义 在 图 7-2 中 示 出 。s- 详 尽 的 变型 空间 表示 与 训练 样 例 一 致 的 所 有 假设 ( 即 那 些 有 0 
训练 错误 率 的 假设 ) 的 真实 错误 率 怡 好 都 小 于 s。 当 然 ,从 学 习 器 的 角度 看 ,所 能 知道 的 只 是 
这 些 假 设 能 同等 地 拟 合 训练 数据 ,它们 都 有 零 训 练 错 误 率 。 只 有 知道 确切 的 目标 概念 的 观察 
者 才能 确定 变型 空间 是 否 为 e- 详 尽 的 。 令 人 惊讶 的 是 ,即使 不 知道 确切 的 目标 概念 或 训练 样 
例 抽 取 的 分 布 ,一 种 概率 方法 可 在 给 定数 目的 训练 样 例 之 后 界定 变型 空间 为 -详尽 的 概率 。 
Haussler 《1988) 以 下 面 的 定理 形式 提供 了 这 样 的 界定 方法 。 
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棚 设 空间 H 





变型 空间 VSy DAUR 珀 的 子 扒 ,其 中 的 候 设 都 有 零 训 练 错误 率 ( 在 图 中 表示 为 r =0)。 当 然 真实 错 谨 率 
erroral 上 用 图 中 表示 为 error) 可 能 非 0, 即 使 该 假设 在 所 有 训练 数据 中 错误 为 0。 当 变型 空间 中 所 有 扔 设 入 都 
WE errorst h) < HN, CASA HRA 

图 7-2 使 变 型 空间 详尽 化 


定理 7.1; 变 型 空间 的 6- 详 尽 化 (s-exhasting the version space) AMUSE HAR, HD» 
月 标 慨 念 c 的 一 系列 m1 个 独立 随机 抽取 的 样 例 , 那 么 对 于 任意 0<e <1, SRS VS, p 不 是 
一 许 尽 (关于 c) 的 概率 小 于 或 等 于 : 
|¥le™ 
BEAR: > A, Ah AA PR MARS RBMAT MARR. SHS k RRP 
至 少 有 一 个 恰好 与 所 有 m 个 独立 随机 抽取 样 例 一 致 时 ,不 能 使 变型 空间 e - 详尽 化 。 尾 一 假设 真 
实 错误 率 太 于 e, 且 与 一 个 随机 抽取 样 例 一 致 的 可 能 性 最 多 为 {1 - s)。 因 此 ,该 假设 与 m 个 独立 
抽取 样 例 一 致 的 概率 最 包 为 (1 - s)"。 由 于 已 知 有 上 个 假设 错误 率 大 于 ,那么 至 少 有 一 个 与 所 有 
m 个 训练 样 例 都 不 一 至 的 概率 最 多 为 : 
k(i-«}* 
FARA kl AI, ERBARIO)". BRP Sot One l 则 (1 - 
ele *, Au: 
kl- e)” gl HI- e)” gl #te™ 
定理 得 证 。 
刚才 基于 训练 样 例 的 数目 mw ,允许 的 错误 率 e AL 的 大 小 ,得 到 了 变型 空间 不 是 e- 详 尽 
的 概率 的 上 界 。 换 言 之 , 它 对 于 使 用 假设 空间 8 的 任意 学 习 器 界定 了 m 个 训练 梓 例 未 能 将 
所 有 “ 坏 ” 的 假设 ( 即 错误 率 大 于 8 BEE) BR 
可 以 用 这 一 结论 来 确定 为 了 减少 此 “未 蓟 除 "概率 到 一 希望 的 程度 8 所 需 的 训练 梓 例 数 。 
H: 
|Hle™=x 9 (7.1) 
从 中 解 出 m ,可 得 : 


m > (In| H 1+ ln(1/8)) (7.2) 

概括 地 说 , 式 (7.2) 中 的 不 等 式 提供 了 训练 样 例 数目 的 一 般 边界 ,该 数目 的 样 例 足 以 在 所 

期 望 的 值 8 Ale 程度 下 ,使 任何 一 臻 学 习 器 成 功 地 学 习 到 五 中 的 任 痢 目 标 概 念 。 训 练 样 例 的 

数目 m 是 以 保证 任意 一 致 假设 是 可 能 (可 能 性 为 1 - 8) 近似 (错误 率 为 e) 正 确 的 。 注 意 , m 
随 着 1/e 线性 增长 ,并 随 176 对 数 增 长 。 它 还 随 着 假设 空间 H 的 规模 对 数 增 长 。 
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注意 ,上 面 的 界限 有 可 能 是 过 高 的 居 计 ,例如 ,里 然 未 能 详尽 化 变型 空间 的 概率 必须 在 区 
lO, 1] 内 ,然而 此 定理 给 出 的 边界 随 着 | #H | 对 数 增长 。 对 于 足够 大 的 假设 空间 ,该 边界 很 容 
易 超 过 1。 因 此 , 式 (7.2) 中 的 不 等 式 给 出 的 边界 可 能 过 禹 居 计 了 所 需 训 练 样 例 的 数量 。 示 边 
界 的 脆弱 性 主要 来 源 于 1 下 1 项 , 它 产生 于 证 明 过 程 中 在 所 有 可 能 假设 上 计算 那些 不 可 接受 的 
假设 的 概率 和 。 实 际 上 ,在 许多 情况 下 可 以 有 一 个 更 紧凑 的 边界 以 及 能 够 覆盖 无 限 大 的 假设 
术 间 的 边界 ,这 是 第 7.4 TRER, 


7.3.1 不 可 知 军 习 和 不 一 致 假设 


式 (7.2) 的 重要 性 在 于 , 它 告 诉 我 们 有 和 多少 训练 样 例 才 足以 保证 (以 概率 1 - 5)H 中 每 个 
有 零 训 练 错误 率 的 假设 的 真实 错误 率 最 多 为 。。 诞 憾 的 是 ,如 果 日 不 包含 目标 概念 c ,那么 六 
不 总 能 找到 一 个 零 错 误 率 假设 。 这 时 ,最 多 能 要 求学 习 器 输出 的 假设 在 训练 样 例 上 有 最 小 的 
错误 率 。 如 果 学 习 器 不 假定 目标 概念 可 在 5 中 表示 ,而 只 简单 地 寻找 具有 最 小 训 错 误 率 的 入 
设 , 这 样 的 学 习 器 称 为 不 可 知 学 习 器 ,因为 它 不 预先 认定 CE HH。 

虽然 式 (7.2) 基 于 的 假定 是 学 习 器 输出 一 零 错 误 率 假 催 ,在 更 一 般 的 情形 下 学 习 峰 考虑 到 
了 有 非 零 训练 错误 率 的 假设 时 , 仍 能 找到 一 个 简单 的 边界 。 精 确 地 表述 如 下 , 令 D 代表 学 习 
器 可 观察 到 的 特定 训练 样 例 集合 ,而 与 此 不 同 的 多 代表 在 整个 实例 集合 上 的 概率 分 布 。 令 
errorp 上) 代表 假设 4 的 训练 错误 率 。 确 切 地 说 ,errorp (上) 定义 为 D PRA 溪 分 类 的 训练 样 
例 所 占 比 例 , 注 意 errorp( 上 有 ) 是 在 特定 训练 数据 样本 D 上 的 , 它 与 真实 错误 率 errorg (h) A 
同 ,后 者 是 定义 在 整个 概率 分 布 多 上 的 。 现 在 令 ,代表 吾 中 有 最 小 训练 错误 率 的 假设 。 针 
少 训练 样 例 才 足 以 (以 较 高 的 概率 ) 保 证 其 真实 错误 率 errorg (hy) RAE F e + errorp 
(hice ) 呢 ?注意 上 一 节 讨 论 的 问题 只 是 现在 这 种 情况 的 特例 ,其 中 errorp( hse) 恰好 为 0。 

该 问题 的 回答 (见习 题 7.3) 使 用 类 似 于 定理 7.1 的 证 明 方 法 。 这 里 有 必要 引入 一 般 的 
Hoeffding 边界 (有 时 又 称 为 附加 Chernoff 边界 )。Hoeffding 边界 刻画 的 是 某 事 件 的 真实 概率 
及 其 m 个 独立 试验 中 观察 到 的 频率 之 间 的 差异 。 更 精确 地 讲 , 这 些 边 界 应 用 于 m 个 不 同 的 
Bernoulli 试验 {例如 , m RPP, KE SREB aS AE). PERMA 
第 5 章 考 虑 的 假设 错误 率 估 计 问 题 , 即 硬币 显示 为 正面 的 概率 对 应 到 一 个 随机 抽取 实例 被 假 
设 误 分 类 的 概率 。m 次 独立 的 重 币 抛掷 对 应 m 个 独立 抽取 的 实例 。m 次 实验 出 现 正 面 的 频 
率 对 应 于 mm 个 实例 中 误 分 类 的 频率 。 

Hoeffding 边界 表明 , 当 训练 错误 率 errorp HERA m 个 随机 抽取 样 例 的 集合 D EW 
Bay M: 


Pri errorg Ch} > errorp(h) +e] g e°™ 


它 给 出 了 一 个 概率 边界 ,说 明 任 意 选择 的 假设 训练 错误 率 不 能 代表 真实 情况 。 为 保证 L 
寻找 到 的 最 佳 的 假设 的 错误 率 有 以 上 的 边界 ,我 们 必须 考虑 这 1 五 1 个 和 假设 中 任 一 个 有 较 大 错 
误 率 的 概率 : 

Pr (3 h E Hl}(errorg (h) > errorp(h) +e)] g| H | p me 

如 果 将 此 概率 称 为 3, 并 且 问 多 少 个 训练 样 例 m 才 足 以 使 8 维持 在 一 渴望 得 到 的 值 内 ， 

可 得 下 式 : 
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m > > i H |+ Iní 1/}) (7.3) 


这 是 式 (7.2) 的 一 般 化 情形 ,适用 于 当 最 佳 假 设 可 能 有 非 零 训练 错误 率 时 ,学 习 器 仍 能 选 
PEF RIS ACH 的 情形 。 注 意 m 依赖 于 所 和 176 的 对 数 , 如 在 式 {7.2) 中 一 样 。 然 而 在 
这 个 受 限 较 少 的 情形 下 , m 随 1/e 的 平方 增长 ,而 不 是 17e 的 线性 增长 。 


7.3.2 布尔 文字 的 合 取 是 PAC 可 学 习 的 


现在 我 们 有 了 一 个 训练 样 例 数 目的 边 失 ,以 表示 该 数目 为 多 少时 才 足 以 可 能 近似 学 习 到 
目标 概念 。 然 后 就 可 用 它 来 确定 某 些 特定 概念 类 别 的 样本 复杂 度 和 PAC 可 学 习性 。 

考虑 目标 概念 类 和 C , 它 由 布尔 文字 的 合 取 表 示 。 布 尔 文 字 (boolean literal) 是 任意 的 布尔 
变量 (如 ， Old) REA AC, Old), 因此 ,布尔 文字 的 合 取 形式 可 能 为 “Old A 一 
Tall”, C ETAT PACI? WLU HAERE DER KERR 
学 习 器 只 需要 多 项 式 级 的 数目 的 训练 样 例 以 学 导 到 C HAR c SURI BIH ie ARE 
训练 样 例 使 用 多 项 式 的 时 间 。 

SAME Bee 工 , 它 使 用 的 假设 空间 HH 等 于 CG。 我 们 可 以 用 式 (7.2) 计 算出 足以 保证 
(以 概率 1 - 3) 输出 一 最 大 错误 率 为 s 的 假设 所 需 的 随 本 训练 样 例 数目 是 m。 为 达到 此 目标 ， 
只 需要 确定 假设 空间 的 规模 | FH |， 

车 假设 空间 互 定义 为 个 布尔 文字 的 合 取 , 则 段 设 空间 1 中 1 的 大 小 为 3"。 原 因 在 于 , 任 
一 给 定 的 假设 中 每 个 变量 可 有 三 种 可 能 :该 变量 作为 文字 包含 在 假设 中 ;该 变量 的 否定 作为 文 
字 包 含 在 假设 中 ;或 假设 中 不 包含 该 变量 。 由 于 有 n 个 这 样 的 变量 ,所 以 共有 3" TARR 
i. 

WAL = 3" 代入 到 式 (7.2) 中 ,得 到 以 下 关于 nn 布尔 文字 合 取 学 习 癌 题 的 样本 复杂 度 ， 


mi > 一 (nln3 + In(1/8)) (7.4) 
Fi PR ARES SY Bp] BS 10 个 布尔 文字 来 描述 ,那么 可 有 95% H 


概率 它 将 学 习 到 一 个 错误 率 小 于 0.1 的 假设 ,而 且 所 需 的 训练 样 例 数 量 m = T (10In3 + 
In( 1/0.05)) = 140. 

注意 ,mm LFE n 和 1ve 成 线性 增长 ,并 按 1/0 对 数 增长 。 总 的 运算 量 是 多 少 呢 ? 
这 当然 依赖 于 特定 的 学 习 算 法 。 然 而 ,只 要 学 习 算 法 的 每 个 训练 样 例 计算 量 不 超过 多 项 式 级 ， 
并 且 不 超过 训练 样 例 数目 的 多 项 式 级 ,那么 整体 的 运算 也 为 多 项 式 级 。 

在 布尔 文字 的 学 习 中 ,一 个 能 够 符合 该 要 求 的 算法 已 经 在 第 2 童 介绍 了 。 这 就 是 FIND-S 
算法 , 它 增 量 地 计算 与 训练 样 例 一 致 的 最 特殊 假设 。 对 每 个 新 的 正 例 ,该 算法 计算 了 当前 假设 和 
新 样 例 问 共 享 前 文字 的 交集 ,使 用 的 时 间 也 按 n 线性 增长 。 因 此 ,F in-S 算法 可 能 近似 正确 
{PAC) 学 习 一 类 带 否 定 的 n 个 布尔 文字 的 合 取 概念 。 

定理 7.2: 布尔 合 取 式 的 PAC 可 学 习性 布尔 文字 合 取 的 类 CBA Finos 算法 (使 用 = 5) 

PAC 可 学 习 的 。 

证 明 : 式 (7.4) 显 示 了 该 概念 类 的 样本 复杂 诬 是 .le 和 1xs AEDA, mHE F 

size( 5c)。 为 增 量 她 处 理 每 个 训练 样 例 ,F S 算法 要 求 的 运算 量 根 据 n 线性 增长 ,并 独立 于 1/ 他， 

1/e 和 sizete)。 因 此 ,这 一 概念 类 别 是 Fmo$ 算法 PAC 同学 习 的 。 
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7.3.3 其 他 概念 类 别 的 PAC 可 学 习性 


如 前 所 示 ,在 学 习 给 定 类 C 中 的 目标 概念 时 , 式 (7.2) 为 界定 其 样本 复杂 度 提 供 了 一 般 的 基 
础 。 上 例 将 其 应 用 到 布尔 文字 的 合 取 这 样 的 类 别 中 。 它 还 可 用 于 证 明 许 多 其 他 概念 有 多 项 式 级 
的 样本 复杂 度 ( 例 如 ,见习 题 7.2)。 

1. Ate FAS 

并 非 所 有 概念 类 别 都 有 如 式 (7.2) 那 样 的 多 项 式 级 样本 复杂 度 边界 。 例 如 ,考虑 一 无 偏 概念 
KC, ERAS 下 相关 的 所 有 可 教授 概念 。 该 集合 C 对 应 于 X 的 项 集 , 即 天 的 所 有 子 集 的 集 
& Ste ic) =2'*"' 个 概念 。 若 下 中 的 实例 定义 为 n 个 布尔 值 特征 ,将 有 1 元 1 = 2 个 不 同 实 


例 , 因 此 有 1CI =! =22 个 不 同 概念 。 当 然 为 学 习 这 样 的 无 偏 概念 类 ,学 习 器 本 身 也 必须 使 用 


一 无 偏 的 假设 空间 H = Co WAL = 类 代 人 到 式 (7.2) 中 ,得 到 为 学 习 对 应 于 X HERAT 
的 样本 复杂 度 。 


ee Hrm + In(1/8)) (7.5) 


BOE, AERE BIRARE PAC 模型 下 有 指数 级 的 样本 复杂 度 。 虽 然 式 (7.2) 和 式 (7.5) 
不 是 紧 恋 的 上 界 , 实 际 芋 可 证 明 该 无 偏 概 念 类 的 样本 复杂 度 确 实 为 n 的 指数 级 。 

2. KA DNF 和 K-CNF 概念 

存在 这 种 可 能 , 即 某 福 念 类 有 多项式 级 的 样本 复杂 度 , 但 不 能 够 在 多 项 式 时 间 内 被 学 习 到 。 
一 个 有 趣 的 例子 是 概念 类 C 为 项 析 取 范式 (项 DONDE. k 项 DNF 表达 式 形式 为 TV 
Ty Ve V Ti, 其 中 每 一 T, 项 为 个 布尔 属性 和 它们 的 否定 的 合 取 。 假 定 五 = C ,很 容易 证 朋 
| 瑟 | 最 多 为 3%( 因 为 有 上 个 项 ,每 项 可 有 3" 个 可 能 值 )。 注 意 3" 过 高 估计 了 1 瑟 1, 因 为 它 重复 
计算 了 T;=7T,URT, KT, 更 一 般 的 情形 。 此 土 界 仍然 可 用 于 获得 样本 复杂 度 的 土 界 ,将 其 
代入 到 式 (7.2) 中 ; 


m > 二 (nkln3 + In(1/8)) (7.6) 


EER k E DNF 的 样本 复杂 度 为 /6、1/e 、n 和 上 的 多 项 式 级 。 昌 然 样本 复杂 度 是 多 项 
式 级 的 ,计算 复杂 度 却 不 是 多 项 式 级 的 ,因为 该 算法 等 效 于 其 他 已 知 的 不 能 在 多 项 式 时 间 内 解 
决 的 问题 (除非 RP = NP)。 因 此 ,虽然 上 项 DNF 有 多 项 式 级 的 样本 复杂 度 , 它 对 于 使 用 H = 
C 的 学 习 刚 没有 多项式 级 的 计算 复杂 度 。 

关于 上 项 DNF 的 令 人 吃惊 的 事实 在 于 ,虽然 它 不 是 PAC 可 学 习 的 , 却 存在 一 个 更 大 的 概 
念 类 是 PAC 可 学 习 的 。 这 个 更 大 的 概念 类 有 每 样 例 的 多 项 式 级 时 间 复 杂 度 ,同时 有 多 项 式 级 
的 样本 复杂 度 。 这 一 更 大 的 类 为 CNF 表达 式 : 任 意 长 度 的 合 取 式 TATA CoS A 了 ,其 
中 每 个 T, 为 最 多 个 布尔 变量 的 析 取 。 很 容易 证 明 六 CNF 包含 了 上 项 DNF, 因 为 任意 项 
DNF 可 以 很 容易 地 重 写 为 h-CNF 表达 式 ( 反 之 却 不 然 )。 虽 然 k-CNF HA DNF 表达 力 更 
强 , 但 它 有 多 项 式 级 样本 复杂 度 和 多 项 式 级 时 间 复 杂 度 。 因 此 ,概念 类 上 项 DNFT 是 使 用 H = 
k-CNE 的 一 个 有 效 算法 可 PAC 学 习 的 。 见 Kearns 点 Vasirani(1994) 中 更 详细 的 讨论 。 


ww ai bbt.com PO0O0O0D0D0OO 





E7 HEF UV RH 153 


i rr re ee eee ee ee ee 


7.4 无 限 假 设 空间 的 样本 复杂 度 


在 上 一 节 中 我 们 证 明了 PAC 学 习 的 样本 复 林 度 随 假设 空间 对 数 增长 。 虽 然 式 {7.2) 是 一 
MARIOS (AL) ARIAS EE APR. BC, CA BE SBE ee A 
办 (回忆 一 下 对 于 大 的 1 在 1 在 2 上 的 边界 可 能 超出 1 很 多 )。 其 次 ,对 于 无 限 假 设 空间 的 情形 ， 
式 17.2) 根 本 无 法 应 用 。 

这 里 我 们 考虑 A 的 复杂 度 的 另 一 种 度量 , 称 为 A OW Vapnik-Chervonenkis 维度 (简称 VC 
维 或 VC(H)). DBS VCC ARE PIB aRAR AEA. EIFS 
形 下 ,基于 YC( 豆 ) 的 样本 复杂 度 会 比 式 (7.2) 得 到 的 更 紧凑 。 另 外 ,这 些 边界 可 以 刻画 许多 
无 限 假 设 空 加 的 样本 复杂 度 ,而 且 凡 证 明 相 当 紧 瘘 。 


7.4.1 打 散 一 个 买 例 集合 


VC 维 衡量 假设 空间 复杂 度 的 方法 不 基 用 不 同 假设 的 数量 ! 上 1 ,而 是 用 XY 中 能 被 五 彻底 
区 分 的 不 同 实例 的 数量 。 

为 精确 地 描述 这 一 点 ,首先 定义 对 -~ 个 实例 集合 的 打 淫 (shattering) 操 作 。 考 虚实 例 的 某 
子 集 SC XX。 例 如 ,图 7-3 BRT X 中 一 个 包含 3 个 实例 的 于 集 。H 中 的 每 个 导致 5 中 的 
某 个 划分 (dichotomy) , Bl A HFS 分 割 为 两 个 子 集 [xE€ Sihla) AR] E Stk) 
给 定 某 实例 集合 3S, 有 2 ”种 可 能 的 划分 ,虽然 其 中 的 一 些 不 能 由 万 来 表达 。 当 S 的 每 个 可 
能 的 划分 可 由 互 中 的 某 假 设 来 表达 时 ,我 们 称 H 打 散 S. 

定义 :一 实例 集 5 被 假设 空间 总 打 艇 (shatter) , 当 且 仅 当 对 5 的 每 个 划分 ,存在 中 的 
菜 假设 与 此 划分 一 致 。 

图 7-3 显示 了 一 包含 3 个 实例 的 集合 5 被 假设 空间 划分 的 结果 。 注 意 这 3 个 实例 的 2 
种 划分 中 每 一 个 都 可 由 某 假设 禾 盖 ，。 

注意 ,如 果 一 实例 集合 没有 被 假设 空间 打 散 ,那么 必然 存在 荣 概念 (划分 ) 可 被 定义 在 实例 
集 之 上 ,但 不 能 由 假设 空间 表示 。 因 此 ,8 的 这 种 打 散 实例 集合 的 能 力 是 其 表示 这 些 实例 上 
定义 的 目标 概念 的 能 力 的 度量 。 





对 等 种 可 能 的 实例 划分 ,存在 一 个 对 应 的 假 臣 
图 7-3 被 8 个 假设 拆散 的 包含 3 实例 的 集合 
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7.4.2 Vapnik-Chervonenkis 维度 


打 散 -实例 集合 的 能 力 与 假设 空间 的 归纳 偏 置 紧密 相关 。 回 忆 第 2 章 中 一 个 无 偏 的 假设 
空间 是 能 够 表示 定义 在 实例 空间 三 .上 每 个 可 能 福 念 (划分 ) 的 假设 空间 。 简 短 地 讲 ,一 个 无 仿 
很 设 空间 能 够 打 散 实例 空间 。 那 么 如 有 果 H ARETE A EEIE AX BRAKET S 会 
怎样 ? 直觉 上 可 以 说 被 打 散 的 的 子 集 越 大 ,上 的 表示 能 力 越 强 。 豆 的 FC 维 正 是 这 样 一 种 
度量 标准 。 


定义 ;定义 在 实例 空间 y 上 的 假设 空间 H 的 Vapnik-Chervonenkis 维 ,或 VC( A) JER H 
打 散 的 的 最 大 有 限 子 集 的 大 小 。 如 果 的 任意 有 限 大 的 子 集 可 被 吾 打 散 , 则 VCC) = & , 


ER SFA RAR H, VCO) clon 1H1。 为 证 明 这 一 点 ,假定 YC( 8) = d。 那 么 
H 需要 2? 个 不 局 假设 来 打 散 d 个 实例 。 因 此 2 1H1, 所 以 d= VECH) glopl Hlo 

华科 

为 了 获得 VCC 了 H) 的 直观 感觉 ,考虑 下 面 -一些 假设 空间 的 例 于 。 首 先 ,假定 实例 空间 为 
实数 集合 X= (PWM IRAN SE height), HA H 为 实数 轴 上 的 区 间 的 集合 。 换 言 之 , H 
中 的 假设 形式 为 a < x <b, HP a b AGRE. ER VOCED? 为 回答 这 一 问题 , 必 
须 找到 能 被 HH 打 散 的 的 最 大 子 集 。 考 虚 -- 特 定 的 子 集 , 包 含 两 个 不 同 实 便 ,如 5 = 13.1， 
5.71。 这 个 5 BER TRE? 回 管 是 肯定 的 。 例 如 ,以 下 四 个 假设 (1 < x <2),(1 < x <4), 
(4 < x<7) 和 (1< x<7) 就 可 做 到 这 一 点 。 它 们 表示 了 S 上 的 四 种 划分 , 即 不 包含 任何 实例 ， 
只 包含 实 例 中 的 一 个 以 及 两 个 实例 。 因 为 我 们 找到 了 一 个 大 小 为 2 的 集合 , 它 可 被 WTR, 
所 以 AA VC 维 至 少 为 2。 大 小 为 ROE A RIT? 考虑 一 集合 $ = | xo，x1，x2z| 包 
会 3 个 任意 实例 。 为 了 不 失 一 般 性 ,可 假定 TO € x1 £ Aq 旺 然 , 此 集合 不 能 被 打 散 ,因为 包含 
xo 和 x. 但 不 包含 x, 的 划分 将 不 能 由 单个 的 六 区 间 来 表示 。 因 此 , $ 中 没有 大 小 为 3 的 子 集 
可 被 打 散 ,因此 VCC A) =2。 注 想 , 这 里 于是 无 限 的 ,但 VCC AAR. 

下面 考虑 的 实例 集合 $ 对 应 x 、y 平面 上 的 点 ( 见 图 7-4)。 令 FAP RARER 
策 面 的 集合 。 换 言 之 , 吾 对 应 有 双 输 人 的 单个 感知 医 单 元 的 假设 空间 ( 昂 第 4 章 中 对 感知 冀 
Brie). HA YC 维 是 多 少 ? 很 容易 可 看 出 该 平面 内 性 意 两 个 不 同 点 可 被 H TR, REN 
为 我 们 可 以 找到 4 个 线性 表面 ,它们 包含 没有 点 、 两 点 中 的 任 一 点 或 两 点 。3 个 点 的 集合 会 起 
么 样 ? 只 要 3 个 点 不 共 线 ,就 可 以 找到 2 个 线性 表面 来 打 散 它们 。 当 然 3 个 共 线 的 点 无 法 被 
打 散 {与 前 例 中 实 轴 上 3 个 点 无 法 被 打 散 同样 的 理由 )。 在 此 VC 维 是 多 少 ? 2 还 是 3? 至 少 
应 该 是 3。YVC 维 的 定义 表示 ,如 果 能 找到 任意 一 个 大 小 为 d 的 实例 集合 , 它 可 被 打 散 ,那么 
VC( Hed, AWH VC(H) < 4 ,必须 证 明 大 小 为 d 的 集合 都 不 能 被 打 散 。 在 此 例 中 ,大 小 
为 4 的 集合 都 不 能 被 打 散 ,因此 VC(H) = 3。 更 一 般 地 ,可 证 明 , 在 r 维 空间 中 (如 ,有 7 个 输 
人 的 感知 器 ) ,线性 决策 面 的 YC AEA r+). 

最 后 一 个 例子 ,假定 X 上 每 个 实例 由 恰好 3 个 布尔 文字 的 合 取 表 示 ,而 且 很 是 A 中 每 个 
假设 由 至 多 3 个 布尔 文字 描述 。 VC(H}) 是 多 少 ? 可 证 明 这 个 值 革 少 为 3。 将 每 个 实例 表示 
为 一 3 HEB MMT AMET RS hadh 和 13。 考 虚 下 面 3 个 实例 集合 : 

instancel: 100 


instancez: 010 
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aj b) 


el 


ENSLENLES : OO 


a 一 -个 3 点 集 侣 可 被 线性 决策 面 拆 散 ”b) 一 个 3 点 集合 不 能 被 拆散 
图 ?7-4 在 x,y 平 面 中 线性 决策 商 的 YC 维 为 3 


这 三 全 实例 的 集合 可 租 HW 打 散 ,因为 可 对 如 下 尾 意 所 希望 的 划分 建立 一 盘 设 :如 果 该 划 
分 要 排除 instance, POR FT 志 加 人 到 假设 中 。 例 如 ,要 包含 instaneez, 且 排除 instance, 
和 instances, 那么 可 使 用 很 设 一 [A 一 /3。 此 讨论 可 很 容易 地 扩展 到 特征 数 为 on 的 情况 。 
XEF, n 个 布尔 文字 合 取 的 VC 维 至 少 为 n。 实 际 上 也 确实 为 ,实际 的 证 明 比 较 困 难 , 因 为 
开 需 要 说 明 n+ 1 个 实例 的 集合 不 可 能 窒 打 散 。 


7.4.3 样本 复杂 度 和 VC 维 


前 面 考虑 了 有 多 少 随机 抽取 训练 样 例 才 足以 可 能 近似 正确 {(PAC) 地 学 习 到 C 中 任意 目 
标 概 念 " 这 个 问题 {( 即 需要 多 少 样 例 足以 以 1- 6 的 概率 s - 详尽 变型 空间 ?)。 使 用 VECHE 
AH RRB ,就 有 本 能 推导 出 该 问题 的 另 一 种 解 葵 ,类 似 于 前 面 式 47.2) 中 的 边界 。 新 
导出 的 边界 ( 见 Blumer et al. 1989) 为 ， 


m > (hloga(2/6) + 8VYC( 月 )loga(13/e)) (7.7) 


正如 式 人 7.2) 中 的 边界 一 样 ,所 需 训 练 样 例 的 数目 m 以 178 的 对 数 增长 。 但 该 边界 现在 
以 17s 的 对 数 乘 以 线性 增长 , 面 不 只 是 线性 ,特别 要 指出 ,前 面 边 界 中 的 in1 瑟 1 项 被 奉 换 为 另 
一 种 假设 空间 复杂 度 的 度量 ,有 即 VCC) VELE) clog! HI)o 

对 应 于 任意 希望 的 se 和, 式 17.7) 对 于 足以 间 能 近似 学 习 到 C 中 任意 目标 概念 所 需 的 训 
练 样 例 给 出 了 一 个 上 界 。 还 可 能 得 到 一 个 下 界 , 正 如 下 面 定理 所 概括 的 ( 见 Ehrenfeucht et al. 
1989), 

定理 7.3: 样本 复杂 度 下 界 SRR CLA VC Oe? ERP LURE ROK 

e<t/8,0<8<1/100, FE- taot SUR C PARRAS, S L SR bh 

式 时 ， 
L log(178), FEC- -| 


| 


上 将 以 至 少 8 的 概率 输出 一 假设 ,使 error h) > En 


该 定理 谨 明 ,车 训练 样 例 的 数目 太 少 ,那么 没有 学 习 右 能 够 以 PAC 模型 学 习 到 和 住 意 非 平 
ALY C 中 每 个 目标 概念 。 因 此 ,该 定理 提供 了 成 功 的 学 习 所 必要 的 训练 样 例 的 数目 的 下 界 ， 
它 是 对 于 前 面 上 界 给 出 的 保证 充足 的 数量 的 上 界 的 一 个 补充 。 注 意 , 该 下 界 是 由 概念 类 C 的 
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复杂 度 确定 的 ,而 前 面 的 上 界 由 We, AtA 
该 下 算 说 明 式 (7.7) 给 出 的 上 办 相当 紧 凌 。 因 为 两 个 边界 玫 是 178 ORT CCA) 
线性 数量 级 。 在 这 两 个 边界 中 惟一 的 区 别 是 上 界 中 多 出 的 log(17e) 依 赖 性 。 


7.4.4 神经 网 络 的 VC E 


对 于 第 4 章 讨论 的 人 工 神经 网 络 ,我 们 有 兴趣 考 起 怎样 计算 一 个 互联 单元 网 络 的 YC HE, 
如 由 上 反 向 传播 过 程 训练 的 前 馈 网 络 。 本 节 给 出 了 一 般 性 的 结论 ,以 计算 分 层 无 环 网 络 的 VC 
维 。 这 一 VC 维 可 被 用 于 界定 训练 样 例 的 数量 ,该 数 达 到 多 大 才 足 以 按照 希望 的 s 和 5 值 近 
似 可 能 正确 地 学 习 到 一 个 前 馈 网 络 。 本 节 在 第 一 次 阅读 时 可 忽略 掉 , 而 不 和 失 连 续 性 。 

考 起 一 个 由 单元 组 成 的 网 络 G , 它 形成 一 个 分 屋 有 问 无 环 图 。 有 向 无 环 图 是 强 带 有 方向 
(如 ,单元 有 输 人 和 输出 ) 但 不 存在 有 向 环 的 图 。 分 层 图 中 的 节点 可 被 划分 为 层 , 这 样 所 有 第 ! 
屋 出 来 的 有 向 边 进 人 到 第 5+ 1 层 节 点 。 第 4 章 介绍 的 分 层 前 锁 网 络 就 是 这 样 的 分 层 有 向 无 
环 图 的 例子 。 

可 以 看 出 ,这样 的 网 络 的 YC 维 的 界定 可 以 基于 其 图 的 结构 和 构造 该 图 的 基本 单元 的 VC 
维 。 为 形象 化 地 描述 ,首先 定义 一 些 术语 。 令 n 为 网 络 C 的 输入 人数 日 ,并 且 很 定 只 有 1 个 输 
出 结 点 。 令 6 的 每 个 内 部 单元 N;( 即 每 个 非 输 入 节点 ) 有 最 多 7 个 输入 ,并 实现 一 布尔 函数 
c.:. 巡 "一 10,1 形 成 一 函数 类 C。 例 如 ,车 内 部 节点 为 感知 器 ,那么 CAT NER 上 的 线性 
PAE PRK 

METEN CH GC Sa G-composition) #, M34 G PERRI A RHA, AP G 中 
的 独立 单元 都 取 类 C 中 的 函数 。 简 单 地 说 ,C 的 6G- 合 成 是 可 由 网 络 6 表示 的 假设 空间 。 

下 面 的 定理 界定 了 《C 的 GG 合成 的 基于 CC 的 YC 维和 5 的 结构 的 YC 维 。 

定理 7.4: 分 层 有 向 无 环 网 络 的 VCH (W Kearns & Vazirani 1994) 令 G 为 一 分 屋 有 向 无 环 

图 ,有 n 个 输入 节点 和 :六 2 个 内 部 节点 ,每 个 可 有 至 少 PRA. SCH YC 维 为 AHH 上 的 

概念 类 ,对 应 于 可 由 每 个 内 部 节点 * 找 述 的 函数 集合 。 令 Cc ACHE ARIMA a 6 表示 

HERBS. BBA VC Co) a2dslog(e) HEP e ARBRE. 

注意 , 这 一 网 络 G 的 VC 锥 边界 随 单个 单元 的 YC 维 d 线性 增长 ,并 随 5 OUP P HtA 
单元 的 数目 ) 的 对 数 滋 线性 增长 。 

假定 要 考虑 的 分 屋 有 向 无 环 网 络 中 单个 节点 都 是 感知 器 。 回 忆 第 4 章 中 提 到 的 ,+ 输 人 
感知 器 使 用 线性 决策 面 来 表示 .器 上 的 布尔 函数 。 如 前 面 指出 的 那 拌 ,在 .多 上 的 线性 决策 面 
的 YC 维 为 r+ 1。 因 此 ,单独 的 r 输入 感知 器 VC HHA + 1。 可 使 用 这 一 结果 及 上 面 的 定理 
来 计算 包含 * 个 r 输入 感知 器 的 分 层 无 环 网 络 的 VC 维 边界 ,如 下 : 

VC{ cgn) oe 2(r + 1) slogles)} 

现在 可 以 计算 足够 的 训练 样 例 数 日 m 的 边界 ,以 确保 在 误差 e 范围 内 (以 至 少 1-6 的 概 

率 ) 学 习 到 来 自 creo 的 目标 概念 。 将 上 面 网 络 YC 维 的 表达 式 代 人 到 式 (7.7), 可 有 : 


局” 如 果 我 们 在 证 界 中 用 PRC. 4 上 CC 时 会 得 到 m 的 一 个 更 紧 访 的 异 轩 。 
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m =~ (4log(2/3) + 8 VCC H)log( 13/e)) 


> (4log(2/8) + 16(r + 1) slog( es)log(13/e)) (7.8) 


EMU Ales aS Sha, EERE RET, CHET -ARETE ,基于 网 络 
结构 和 单个 单元 的 VC 维 界 定 分 层 无 环 单元 网 络 的 VC 维 。 不 过 ,上 面 的 结果 不 能 直接 应 用 
FRE MES ,原因 有 两 个 。 首 先 ,此 结果 应 用 于 感知 器 网 络 , 面 不 是 sigmoid 单元 网 络 ， 
后 者 是 反 向 传播 算法 应 用 的 范围 。 然 而 ,注意 到 sigmoid 单元 的 VC 维 至 少 会 与 感知 器 单元 的 
Fe 维 一 样 大 ,因为 通过 使 用 足够 的 权 值 ,sigmoid 单元 可 以 任意 精度 允 近 感知 器 。 因 此 ,上 而 
的 m 边界 至 少 会 写 sigmoid 单元 组 成 的 分 层 无 环 网 络 中 的 一 样 大 。 上 述 结论 的 第 二 个 不 足 在 
于 , 它 不 能 处 理 反 向 传播 中 的 训练 过 程 , 即 开始 以 约 等 于 0 的 权 值 ,然后 反复 地 更 新 该 权 值 , 直 
到 找到 一 可 接受 的 假设 。 因 此 , 反 向 传播 带 有 交叉 验证 终止 判 据 , 它 产生 一 个 更 偏好 小 权 值 网 
络 的 归纳 身 置 。 这 一 归纳 妨 置 ,降低 了 有 效 的 VC 维 , 是 上 面 的 分 析 所 不 能 涵盖 的 。 


7.5 学 习 的 出 错 界 限 模 型 


除了 PAC 学 习 模 型 以 外 ,计算 学 习 理 沦 还 考虑 了 多 种 不 同 的 问题 框架 。 已 经 研究 的 学 习 
问题 柜 架 中 不 同 之 处 在 于 训练 样 例 的 生成 方式 (被 动 观察 学 习 样 例 还 是 主动 提出 查询 ) ,数据 
中 的 噪声 (有 噪声 数据 还 是 无 差错 数据 ) ,成 功 学 习 的 定义 (是 必须 学 到 正确 的 目标 概念 ,还 是 
AER RB TE ATE) ,学习 器 所 做 的 假定 (实例 的 分 布 情况 以 及 是 否 CC 刀 ) 和 评估 学 习 
化 的 度量 标准 (训练 样 例 数量 .出错 数 量 .计算 时 间 )。 

本 节 将 考 访 机 器 学 习 的 出 错 界 和 限 模 型 ,其 中 学 习 融 的 评估 标准 是 它 在 收 化 到 正确 假设 前 
总 的 出 错 数 。 同 在 PAC 问题 框架 中 一 样 ,这 里 假定 学 习 器 接收 到 一 系列 的 训练 样 例 。 然 面 ， 
这 里 我 们 希望 每 接受 到 一 个 样 例 x ,学 习 器 必须 先 预测 目标 值 ce(x), 之 后 再 由 施 教 者 给 出 正 
确 的 目标 值 。 这 里 考虑 的 问题 是 :在 学 习 比 学 习 到 目标 概念 前 , 它 的 预测 会 有 多 少 次 出 错 "。 
这 一 问题 在 实际 环境 下 十 分 重要 ,其 中 学 习 过 程 与 系统 运行 同时 进行 ,而 不 是 经 过 一 段 离线 的 
训 绒 过 种。 例如 ,如 采 系 统 要 学 着 预测 哪些 信用 卡 购物 可 被 允许 , 卿 些 有 散 诈 行为 ,必须 基于 
在 使 用 中 搜集 的 数据 ,然后 我 们 就 要 在 其 收敛 到 正确 目标 函数 前 使 其 出 错 的 数目 最 小 化 。 这 
里 出 错 的 总 数 可 能 比 训练 样 例 的 总 数 更 重要 。 

这 种 出 错 界限 学 习 问 题 可 以 在 许多 特殊 的 背景 中 进行 研究 。 例 如 ,我 们 可 以 计算 学 习 器 
在 PAC 学 习 到 目标 概念 前 出 错 的 次 数 。 在 下 面 的 例子 中 ,我 们 只 考虑 在 学 习 髓 确 声 学 到 目标 
概念 前 出 错 的 次 数 。 其 中 ,确切 学 到 目标 概念 意味 着 (YY x)h(x)= elr) 


7.5.1 FaoS PERM 


再 一 次 考虑 假设 空间 HARES ARLE h h 或 它们 的 理 定 ) 的 合 取 的 情况 ( 例 
如 : Rich A 一 Handsome)。 回 忆 第 2 章 中 的 下 IND-5S 算法 , 它 增 量 地 计算 与 训练 样 例 一 致 的 极 
大 特殊 假设 。 对 假设 空间 A 的 Finn-S 算法 的 一 个 简单 实现 如 下 : 

FIND-S: 

ee h 初始 化 为 最 特殊 假设 A 一 站 ADA 一 .A 一 

o 对 每 个 正 例 x 
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名 从 六 中 移 去 任何 不 满足 x 的 文字 

es 输出 假设 天 

如 果 “CC 互 且 训 练 数 据 无 噪声 Finp-S 极限 时 必 敏 到 一 个 无 差错 的 假设 。FINp-Ss 开始 于 
最 特殊 的 假设 ( 它 将 每 个 实例 分 为 反例 ) ,然后 增 量 地 泛 化 该 假设 ,以 覆盖 观察 到 的 正 例 。 对 于 
it ie A Be es ,证 化 过 程 由 删 队 不 被 满足 的 文字 操作 构成 。 

是 否 可 以 计算 出 一 个 边界 ,以 撒 述 PND-S 在 确切 学 到 目标 概念 e 前 全 部 的 出 错 次 数 ? 问 
答 是 肯定 的 。 为 证 明之 ,首先 注意 :如 果 cE HABA FIND-S 永远 不 会 将 一 上 反例 错误 地 划分 为 
Ei. REAA SIHR h 总 比 目 标 概念 c 更 特殊 。 我 们 只 需要 计算 将 正 例 划分 为 反倒 的 出 错 
次 数 。 在 FIND-S 确切 得 到 e 前 ,这 样 的 出 错 有 多 少 次 呢 ?” 考虑 Finp-5 算法 过 到 的 第 一 个 正 
例 。 学 习 器 当然 会 在 分 类 这 个 样 例 时 出 错 ,因为 它 的 初始 假设 将 全 部 实例 都 分 为 反例。 然而 ， 
结果 将 是 初始 假设 中 2x 个 项 中 半数 将 钾 册 去 ,只 留 下 n 个 项 。 对 每 个 后 续 的 被 当前 假设 误 
分 类 的 正 例 ,剩余 的 n 个 项 中 至 少 有 一 项 必须 从 假设 中 删 去 。 因 此 ,出 错 的 总 数 至 多 为 n+ 
1。 该 出 错 次 数 是 最 坏 情况 下 所 需 的 次 数 , 对 应 于 学 习 最 一 般 的 目标 概念 :( YW x)c(x)=1, 并 
且 实 例 序 列 也 是 最 坏 情况 下 , 即 每 次 出 错 只 能 称 去 一 个 交 字 。 


7.5.2 Have 算法 的 出 错 界限 


第 二 个 例子 考虑 一 个 算法 , 它 的 执行 过 程 是 维护 一 个 变型 空间 并 在 过 到 新 样 例 时 精 化 该 
变型 空间 。 第 2 章 的 候选 消除 算法 和 列表 后 消除 算法 都 是 这 样 的 算法 。 本 节 我 们 推导 这 样 的 
学 习 器 针对 任意 有 限 假 设 空 间 上 H 最 坏 情 况 下 出 错 数量 的 边界 ,并 再 次 假定 和 且 标 概念 能 被 确切 
Aa, 

为 分 析 学 习 过 程 中 出 错 的 数量 ,必须 首先 精确 指定 学 习 器 对 每 个 新 实例 x 会 作出 怎样 的 
了 预测。 假定 该 预测 是 从 当前 变型 空间 的 所 有 假设 中 取 多 数 票 得 来 的 。 如 果 变 型 室 间 中 允 数 假 
设 将 新 实例 划分 为 正 例 , 那 么 该 预测 由 学 习 器 输出 ,否则 输出 反例 的 预测。 

这 种 将 变型 空间 学 习 和 用 多 数 票 来 进行 后 续 预 测 缚 合 起来 的 算法 通常 被 称 为 H ALVING 
算法 。 对 任意 有 限 ,HH ALvING 算 法 在 确切 学 习 到 目标 概念 前 出 错 的 最 大 次 数 是 多 少 ? 注音， 
“确切 ”地 学 习 到 目标 概念 等 于 说 要 到 达 一 个 状态 ,变型 空间 中 只 包含 一 个 根 谱 (如 往常 那样 假 
定 目标 概念 c 在 纪 中 )。 

为 推导 该 出 错 界 限 , 注 意 H ALvINc 算 法 只 在 当前 变型 空间 的 多 数 假设 不 能 正确 分 类 新 梓 
例 时 出 错 。 在 这 种 情况 下 ,一旦 正确 分 类 结果 提 殿 给 学 习 器 后 ,变型 空间 至 少 可 减 小 到 它 的 一 
半 大 小 ( 即 只 有 投 少 数 票 的 假设 被 保价 )。 由 于 每 次 出 错 将 变型 空间 至 少 碱 小 一 半 , 砚 且 初始 
变型 空间 包含 | 豆 1 个 成 员 ,所 以 变型 空间 到 只 包含 一 个 成 员 前 出 错 次 数 最 大 为 logpl Hlo X 
际 上 可 证 明 该 边界 为 Llogz1 吾 1j]。 例 如 ,考虑 | 五 1 =7 的 情况 。 第 一 个 出 错 可 将 1 五 ! 减 小 到 最 
多 为 3, 第 二 次 出 错 就 可 将 其 减 小 到 1。 

注意 | jog | ht 为 最 坏 情 况 下 的 边界 ,并且 有 可 能 HALYiNc 算 法 不 出 任何 差错 就 确切 学 习 
到 目标 概念 。 因 为 即使 多 数 票 结果 是 正确 的 ,算法 仍 将 移 去 那些 不 正确 的 、 少 数 票 假设 。 夺 此 
情况 在 整个 训练 过 程 中 发 生 ,那么 变型 空间 可 在 不 出 差错 的 情况 下 减 小 到 单个 成 员 。 

对 HALVING 算 法 的 一 个 有 趣 的 扩展 是 允许 假设 以 不 同 的 权 值 进行 投票 。 第 6 章 描 述 耳 由 
叶 斯 最 优 分 类 器 , 它 就 在 假设 中 进行 加 权 投 票 。 在 贝 叶 斯 最 优 分 类 崔 中 ,为 每 个 假设 赋 子 的 权 
值 为 其 描述 目标 概念 的 估计 后 验 概 率 ( 给 定 训练 数据 下 )。 本 节 的 后 面 将 描述 舅 一 个 基于 加 权 
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投票 的 算法 , 称 为 加 权 多 数 算法 。 
7.5.3 最 优 出错 界 限 


上 面 的 分 析 给 出 了 两 个 特定 算法 : Frwb-s 和 候选 消除 算法 在 最 坏 情 况 下 的 出 错 界 限 。 一 
个 很 有 趣 的 问题 是 ;对 于 任意 概念 类 ,假定 N= CRA BHA? BEG 
是 指 在 所 有 可 能 的 学 习 算 法 中 ,最 坏 情况 下 出 错 边 界 中 最 小 的 那 一 个 。 更 精确 地 说 ,对 任意 学 
JRE 4 和 任意 目标 概念 c, 令 My CRE 4 为 了 确切 学 到 c ,在 所 有 可 能 训练 样 便 序列 中 
出 错 的 最 大 值 。 现 在 对 于 任意 非 空 概念 类 C, 令 MCC) = maxeeccaitc)。 注 意 上 面 我 们 证 
明了 当 C 是 至 多 nn 个 布尔 文字 描述 的 概念 类 时 , Mogg s(tC) = n+1。 同 时 ,对 任意 概念 类 
,我们 有 M Hatving ( C) < logo ( LCN 

Pe MS CHR AE. 


定义 : 令 C 为 任意 非 空 概念 类 。C 的 最 优 出 错 界 限 (optimal mistake bound) E XH Opt ( OÆ 
所 有 可 能 学 习 算 法 4 中 村 (C0) 的 最 小 值 。 


Opi €) = AC PUR MACC) 


用 非 形 式 的 语言 来 讲 , 该 定义 表明 Opi CSE C 中 最 难 的 那个 目标 概念 使 用 最 不 利 的 训 
练 样 例 序列 用 最 好 的 算法 时 的 出 错 次 数 。Littlestone( 1987) 证 明 对 任意 概念 类 C ,在 C 的 最 
优 出 错 边 界 .HaLvING 算法 边界 和 CH VC 维 之 间 检 在 一 个 有 趣 的 联系 ,如 下 ，; 


VOCE) = Opt(€) = Muawing6 C) =< log(i C1) 


更 进一步 ,存在 这 样 的 椭 念 类 使 上 面 的 4 个 量 恰 好 相等 。 这 样 的 概念 类 其 中 之 一 是 任意 
ARRANA Cp。 在 此 情况 下 ,， VC C) = 1X1 = logz(1Cp1), 因 此 所 有 这 4 个 量 相 等 。 
Littlestone( 1987) 提 供 了 其 他 概念 类 的 例子 ,其 中 VOC OC) PERL Opt(C), Opti C) 严 格 小 
F M nating Cd 


7.5.4 加 权 多 数 算 法 


本 下 讨论 HALVING 算 法 的 更 一 般 的 形式 , 称 为 加 权 多 数 ( 负 EIGHTED- MAJORITY) 算 法 ,， 加 
权 多 数 算法 通过 在 一 预测 算法 池 中 进行 加 权 投 票 来 作出 了 观测 ,并 通过 改变 每 个 预测 算法 的 权 
KEI, RHA RAE H 中 的 不 同 假 设 ,或 被 看 作 本 刁 随 时 间 变 化 的 不 同学 习 算 
法 。 对 于 这 些 预 测算 法 ,所 需要 的 只 是 在 给 定 一 个 实例 时 预测 目标 梳 念 的 值 。 加 权 老 数 算法 
的 一 个 有 趣 属 性 是 它 可 以 处 理 不 一致 的 训练 数据 。 这 是 因为 它 不 会 消除 掉 与 样 例 不 一 致 的 假 
设 , 面 只 是 降低 其 权 。 它 的 第 二 个 有 趣 属 性 是 :要 计算 此 算法 的 出 错 数量 边界 ,可 以 用 预测 算 
法 池 中 最 好 的 那个 算法 的 出 错 数 量 ， 

加权 多 数 算法 一 开始 将 每 个 预测 算法 赋 以 权 1 ,然后 考虑 训练 样 例 。 只 要 一 个 预测 算法 
误 分 类 新 训练 样 例 , 它 的 权 被 乘 以 某 个 系数 BOK RB <1。 加 权 和 多数 算 法 的 确切 定义 见 表 7-1. 
注意 ,如 果 8=0, 那 么 加 权 多 数 算法 等 于 H ALvING 算 法 。 另 一 方面 ,如 果 为 8 选择 其 他 的 值 ， 
没有 一 个 预测 算法 会 被 完全 去 除 。 如 果 一 算法 误 分 类 一 个 样 例 , 它 在 将 来 会 占 较 少 的 票数 比 


Bil. 
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47-1 加 权 多 数 算法 


a 代表 算法 池 4 中 第 E 个 预测 算法 ， wi RRS iI, FE PB 
@ 对 所 有 i, MR wml 
o GAIRA, oC) MB: 
名 初始 化 go 和 gi WO 
o 对 每 个 预测 算法 ai 
@ 如 果 w(x)=0, 那 公 got aot w; 
WR atx) = 1, 那 必 gigi +t w; 
eig gi> go A MA cíz)=] 
如 果 go> gi, 那么 预测 c(x) =0 
如 果 9, = wo ,那么 对 el x) 随 机 磊 测 0 或 | 
OX A 中 每 个 预测 算法 a; Ht: 
WR a(x) eel}, BA w, pw: 


现在 证 明 , 加 权 多 数 算 法 的 出 错 数量 边界 可 以 由 投票 凶 中 最 佳 预 测算 靶 的 出 错 数 来 表 
示 。 


定理 7.5: 加 权 多 数 算 法 的 相对 误差 界限 $ D 为 任意 的 训练 样 例 序 列 , 令 4 为 任意 "个 预 
测算 法 的 集合 , 令 为 4 中 任意 算法 对 样 例 序列 的 出 错 次 数 的 最 小 值 。 那 么 使 用 p= 1/2 的 加 
权 多 数 算法 在 Dp 上 出 错 次 数 最 多 为 : 
2.404 + log,a) 

EA eT ERROR A OSM. $ a 代表 4 
中 一 算法 ,并 且 它 出 错 的 次 数 为 最 优 的 次 。 与 a 相 联系 的 权 w 将 为 (1/2)*, 因 为 它 的 初始 权 为 
1 并 在 每 次 出 错时 乘 以 1/2。 现 在 考虑 A 中 所 有 = 个 算法 的 权 的 和 多 = Er w, 四 初始 为 mn。 对 
加 权 多 数 算法 的 每 次 出 错 , 久 被 碱 小 为 最 多 之 WW。 其 原因 是 加 权 投票 占有 多 数 的 算法 最 少 拥有 
整个 权 W 的 一 半 值 ,而 这 一 部 分 将 被 乘 以 因子 1/2。 令 好 代表 加 权 多 数 算法 对 训练 序列 D 的 总 


出 错 次 数 ,那么 最 终 的 总 权 下 最 多 为 4 (2) 。 因 为 最 终 的 权 w 不 会 比 最 终 总 权 大 ,因此 有 : 


重新 安排 各 项 得 到 : 


定理 得 证 。 


概括 地 说 ,上 而 的 定理 说 明 加 权 多 数 算法 的 出 错 数 量 不 会 大 于 算法 池 中 最 佳 算法 出 错 数 
其 ,加 上 一 个 随 善 算法 池 大 小 对 数 增 长 的 项 ,再 乘 以 一 常数 因子 。 

该 定理 由 Littlestone & Warmuth(1991 ) 进 一 步 一 般 化 ,证 明了 对 任意 0 过 8< 1, 上 上 述 边 齐 
为 : 


klog: 9 + logn 
los —— 
"82142 
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小 结 和 补充 读物 


本 章 的 要 点 包括，; 

© 可 能 近似 正确 模型 (PAC) 针 对 的 算法 从 某 概念 类 C 中 学 习 目 标 概 念 ,使 用 按 -… 个 未 知 
但 固定 的 概念 分 布 中 随机 抽取 的 训练 样 例 。 它 要 求学 习 器 可 能 (以 至 少 [1 -5] 的 概率 ) 
学 习 到 一 近似 正确 (错误 率 小 于 :) 的 假设 ,而 计算 量 和 训练 样 例 数 都 只 随 着 1/8 17, 
实例 长 度 和 目标 概念 长 度 的 多 项 式 级 线性 增长 ， 

© 在 PAC 学 习 模 型 的 框架 下 ,任何 使 用 有 限 假设 空间 AR Cc HW REDE 
以 概率 {1 - 3) 输出 一 个 目标 概念 中 误差 在 e 范围 内 的 假设 ,所 需 随 机 抽取 训练 样 例 数 
HA m, H m ME: 


nt > (In(1/8) +In| Hj) 


该 式 给 出 了 PAC Be FRO R SRE BR BR 

© PAC 学 习 模型 的 一 个 有 约束 的 假定 是 ,学 习 回 预先 知道 某 爱 限 的 概念 类 CC, 它 包 会 村 
学 习 的 目标 概念 。 相 反 , 不 可 知 学 习 (agnostic learning) 考 虑 更 一 般 的 问题 框架 ,其 中 学 
习 器 不 假定 目标 概念 所 在 的 类 别 。 学 习 器 只 从 训练 数据 中 输出 五 中 有 最 小 误差 率 (可 
能 非 六 的 和 假设。 在 这 个 受 限 较 少 的 不 可 知 学 习 模 型 中 ,学 习 保 证 以 概率 (1 ~- 人) 从 H 
中 最 可 能 的 假设 中 输出 错误 率 小 于 e 的 假设 ,要 观察 的 随机 抽取 训练 样 便 数 目 m 满 
Æ: 

m > 5 9(In(1/6) thi HI) 


© 成 功 地 学 习 所 需 的 训练 样 例 数 目 很 强烈 地 受到 学 习 器 所 考虑 的 假设 空间 复杂 度 的 影 
啊 。 对 于 假设 空间 BH 复 欢度 的 一 个 有 用 的 度量 是 了 YC BE VCC). VOC HER H 
打 散 5 以 所 有 可 能 方式 分 割 ) 的 最 大 实例 子 集 的 大 小 。 

o 在 PAC 模型 下 以 了 C() 和 表示 的 足以 导致 成 功 学 习 的 训练 样 例 数 目的 上 界 为 : 


> (4log ,(2/8) + 8VC(H)log (13/e)) 


PRA: 
m > > max|—log(1/8), HEC) = 1] 


© 另 一 种 学 习 模 式 称 为 出 错 界 限 模式 , 它 用 于 分 析 一 个 学 习 器 在 确切 学 习 到 目标 概念 之 
前 会 产生 的 误 分 类 次 数 。 例 如 ,H ALVvINGc 算 法 在 学 习 到 H 中 的 任意 目标 概念 前 会 有 至 
多 [Llogs1H1 次 出 错 。 对 任意 概念 类 C ,最 坏 情 况 下 最 佳 算 法 将 有 Opi( CER, E 
A 

VC(C) < Opt(C) « log, (1 C|) 

© 加 权 多 数 算法 结合 了 凶 个 预测 算法 的 加 权 投 票 来 分 类 新 的 实例 。 它 基于 这 些 预 测算 法 

在 样 俩 序列 中 的 出 异 来 学 习 每 个 算法 的 权 值 。 有 趣 的 是 ,加 权 和 多数 算法 产生 的 错误 界 


限 可 用 算法 池 中 最 侍 预 测算 法 的 出 错 数 来 计算 。 
计算 学 习 理论 中 许多 早期 的 工作 针对 的 问题 是 ;在 给 定 一 个 不 定 长 的 训练 样 例 序 例 时 ,学 
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汪峰 是 否 能 在 极限 时 确定 目标 概念 。 在 极限 模型 下 的 确定 方法 由 Gold (1967) 给 出 。 基 于 此 
领域 的 一 个 好 的 综述 见 (Angluin 1992), Vapnik (1982) FEAR Ae AE ST — BURR (uniform 
conyergence) 的 问题 ,而 密切 相关 的 PAC 学 习 模 型 由 Valiant (1984) 提 出 。 本 章 中 e- 详 尽 变型 
空间 的 讨论 基于 Haussler (1988) FI. 1E PAC 模型 下 的 一 组 有 用 的 绪论 可 在 Bluer et al. 
(1989) 中 找到 。Kearns & Vazirani (1994) 提供 了 计算 学 习 理 论 中 许多 结论 的 一 个 优秀 的 立 
述 。 此 领域 一 些 早 期 的 文章 包括 Anthsny & Biggs (1992) 和 Natarajan (1991), 
目前 ,计算 学 习 理 论 的 研究 覆盖 了 许 许 多 多 的 学 习 模 型 和 学 习 算 法 。 许 多 这 方面 的 研究 
可 以 在 计算 学 习 理 论 (COLT) 的 年 度 会 议 的 论文 集中 找到 。 期 刊 $ 机 器 学 习 》( Machine 
Learning) 中 一 些 特殊 的 栏目 也 涉及 这 一 主题 。 
习题 
7.1 考虑 训练 一 个 两 输入 感知 器 。 给 出 训练 样 例 数 日 的 上 界 ,以 各 名 的 置信 和 度 保 证 学 习 刘 
的 感知 器 的 真实 错误 率 不 超过 5 和 。 这 一 边界 是 否 实 际 ? 
7.2 考虑 概念 类 CHERA eax eb) Alexy<d), HP a,b,c,d ACO, 99) 间 的 整数 。 


注意 ,该 类 中 的 每 个 概念 对 应 一 个 矩形 , 它 的 边界 是 x ,y 平面 的 一 部 分 上 的 整数 值 。 提 
示 : 给 定 一 个 该 平面 上 的 区 间 , 其 边界 为 点 (0， OM(n-1, 2-1). 在 此 区 间 内 不 同 的 


实 边界 矩形 的 数量 为 { 2 三 + 上) ， 

(a) 给 出 随机 抽取 训练 样 例 的 数量 的 主 界 ,使 之 足以 保证 对 C 中 任意 目标 概念 <, 任 一 
使 用 HW = C 的 学 习 器 将 以 95 名 的 概率 输出 一 个 异 误 率 最 多 为 0. 15 的 假设 。 

(6) MAREEA a,5,c,d 取 实 数值 。 重 新 回 管 第 一 个 问题 。 

7.3 在 本 章 中 我 们 推导 了 训练 样 例 数 量 的 表达 式 , 使 足以 保证 每 个 假设 的 真实 铺 误 率 不 会 比 
观察 到 的 训练 错误 率 errorp AINE 还 差 。 特 别 是 我 们 使 用 了 Hoeffding 界限 来 推导 
式 (7.3)。 斌 推导 训练 样 例 数目 的 男 一 表达 式 , 使 足以 保证 每 个 假设 的 真实 错误 率 不 会 
差 于 (1+ 了)errorn(h)。 推 导 的 过 程 可 使 用 下 面 通用 的 Chernoff 界限 。 

Chernoff 界限 ;假定 X, e, Xa Am 个 独立 硬币 投 毛 (Bernonlli 实验 ) 的 输出 ,其 中 
每 次 实验 正面 的 概率 为 Pr[ X;,= 1] = p, MAMAE Pr X;=0]=1- po EX S=X, 
+ 下 十 … 二 是 WX m 次 实验 输出 的 和 。5/m 的 期 望 值 为 EL S/m]= pe Chernoff 7 
限 描述 了 S/m 以 某 因 子 0<y 三 1 不 同 于 p HRS: 


Pri S/m > (1 + y)p] = en mY /3 
PrlS/m < (1- 7y)p] «er? 
7.4 考虑 一 个 学 习 问 题 , 其 中 X =. 罗 为 实数 集合 ,并 且 C = 矿 为 实数 上 的 多 间 集 合 , H = ila 
<x<b)| a,bE 党 1。 若 一 假设 与 此 目标 概念 的 m 个 样 例 一 致 ,那么 其 错误 率 全 少 为 
e 的 概率 是 多 少 ? 使 用 YC 维 解决 此 问题 。 是 否 能 找到 另 一 种 方法 基于 最 基本 的 原理 
而 不 用 YC 维 来 解决 此 问题 ? 
7.5 考虑 对 应 x,y 平面 上 所 有 点 的 实例 空间 ,给 出 下 列 假 设 空间 的 YC 维 : 
(a) H, = xy 平面 上 所 有 和 矩形 的 集合 。 即 Ha pilae arch) Aley dla, be, dE | 
(b) 五 = x*,y 平面 的 加 。 在 图 内 的 点 被 分 类 为 正 例 。 
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(c) H,= x,Y 平面 内 的 三 角形 。 在 三 角形 内 的 点 被 分 类 为 正 例 。 

写 出 习题 7.5 中 对 H, 的 一 个 一 致 学 习 器 。 随 机 生成 一 组 不 同 的 目标 概念 ,对 应 平面 上 
不 同 的 矩形 。 为 每 一 个 自 标 概念 随机 生成 样 例 , 其 中 的 实例 分 布 为 矩形 40，0》 到 
《100，100> 内 的 均匀 分 布 。 在 图 上 商 出 对 应 训练 样 例 数 目的 m 的 证 化 错误 率 。 在 同一 
EEEH ô =0.95 Hf e 和 产 之 间 理 论 上 的 关系 曲线 。 该 理论 是 否 与 实验 相符 合 ? 

考虑 假设 类 FH,w; 为 n 个 布尔 变量 | 上 的 “规则 的 且 深 上 度 为 2 的 决策 树 ”"。 这 样 的 决策 树 是 
指 深 度 为 2( 即 有 四 个 叶 结 点 ,与 根 的 矩 离 都 为 2) ,生根 的 左 子 结 点 和 省 子 结 点 要 求 包含 
同样 的 变量 。 例 如 ,下 面 的 树 为 A... PHT, 


x3 


(a) An NRRBRR RH Ha PHSTREL AHS, 

(5) 给 出 PAC 模型 下 所 需 的 样 例 数 日 上 界 ,使 学 习 到 ,ww 错误 率 为 6 ,置信 和 度 为 8。 

(c) SR PRAM 玉 ,ws 类 的 加 权 多 数 算法 。 开 始 ,上 8,s; 中 所 有 很 设 初始 权 值 都 为 1。 每 
次 遇 到 新 样 例 , 要 基 子 ,ss 中 所 有 假设 的 加 权 投 票 进行 预测 。 然 后 ,不 是 消除 掉 不 
一 致 的 树 , 币 是 将 它们 的 权 值 以 因子 2 进行 前 减 。 此 过 程 最 多 会 有 多 少 次 出 错 ? 以 
H o PRIER RHAI n 来 表示 。 

本 题 主要 考虑 本 章 中 的 PAC 分 析 和 第 5 章 讨论 的 假设 评估 之 闻 的 联系 。 考 虑 一 个 学 习 

任务 ,其 中 实例 都 由 =” 个 布尔 变量 描述 {如 :xj AA x 入 x3…x。) 并 且 其 抽取 按照 某 固定 

但 未 知 的 概率 分 布 统 目标 概念 已 知 可 由 布尔 属性 或 它们 的 音 定 的 合 取 来 表示 (如 xs? 

Axs) ,并 且 学 习 算 法 使 用 该 概念 类 作为 它 的 假设 空间 五 。 一 个 一 致 学 习 器 被 给 予 100 

个 按 多 抽取 的 训练 样 例 。 它 从 五 中 输出 一 个 假设 庆 , 是 与 所 有 100 个 样 例 一 致 的 { 即 在 

这 些 训 练 样 例 上 & 的 错误 率 为 0)。 

(a) 我 们 感 兴趣 的 是 的 真实 错误 率 ,即将 来 按 多 抽取 的 实例 被 误 分 类 的 概率 。 基 于 
上 面 的 信息 ,能 否 给 出 一 个 区 间 , 使 真实 错误 率 落 入 其 中 的 概率 至 少 为 95%? 如 果 
能 ,请 描述 该 区 间 并 简 述 理由 。 否 则 ,解释 困难 所 在 。 

(b) 现在 抽取 100 个 新 的 实例 ,抽取 按照 分 布 多 并 相互 独立 。 结 果 发 现 衣 将 100 个 新 样 
例 中 的 30 个 误 分 类 了 。 能 将 给 出 一 个 区 间 使 真实 错误 率 落 人 其 中 概率 约 为 95%? 
(在 这 里 忽略 以 前 对 训练 数据 的 性 能 。) 如 果 能 够 ,请 描述 该 区 间 并 简 述 理由 。 人 否则 
解释 困难 所 在 。 

(e) 即使 能 够 完善 地 分 类 训练 样 便 , 它 仍然 把 新 样 例 的 30% 误 分 类 了 。 判 断 这 种 情 
况 是 对 较 大 的 n 还 是 较 小 的 n 更 有 可 能 出 现 。 用 一 和 句 话 说 明 你 的 理由 。 
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第 8 章 ”基于 实例 的 学 习 


已 知 一 系列 的 训练 样 例 , 很 多 学 习 方 法 为 目标 函数 建立 起 明确 的 一 般 化 描述 。 但 写 此 不 
同 ,基于 实例 的 学 习 方法 只 是 简单 地 把 训练 样 例 存 储 起 来 。 从 这 些 实例 中 泛 化 的 工作 被 推迟 
到 必须 分 类 新 的 实例 时 。 每 当 学 习 项 遇 到 一 个 新 的 查询 实例 , 它 分 析 这 个 新 实例 与 以 前 存储 
的 实例 的 关系 ,并 据 此 把 一 个 目标 画 数 值 赋 给 新 实例 。 基 于 实例 的 学 习 方 法 包括 最 近邻 
( nearest neighbor) 法 和 局 部 加 权 回 归 (locally weighted regressiom) 法 ,它们 都 假定 实例 可 以 家 
表示 为 欧 氏 空间 中 的 点 。 基 于 实例 的 学 习 方法 还 包括 基于 案例 的 推理 (case_based reasoning) 
它 对 实例 采用 更 复杂 的 符号 表示 。 基 于 实例 的 学 习 方 法 有 时 被 称 为 消极 (lazy) 学 习 法 ,因为 
它们 把 处 理工 作 延 迟到 必须 分 类 新 的 实例 时 。 这 种 延迟 的 或 消极 的 学 习 方 法 有 一 个 关键 的 优 
点 , 即 它们 不 是 在 整个 实例 空间 上 一 次 性 地 估计 有 自 标 晴 数 ,而 是 针对 每 个 待 分 类 新 实例 作出 局 
部 的 和 和 相 异 的 估计 ， 


8.1 简介 


基于 实例 的 学 习 方 法 中 ,最 近邻 法 和 局 部 加 权 回 归 法 用 于 逼近 实 征 或 离散 目标 函数 ,它们 
在 概念 上 都 很 简明 。 对 于 这 些 算 法 ,学 习 过 程 只 是 简单 地 存 情 已 知 的 训练 数据 。 当 遇 到 新 的 
查询 实例 时 ,一 系列 相似 的 实例 被 从 存储 器 中 取出 ,并 用 来 分 类 新 的 查询 实例 。 这 些 方 法 与 其 
他 章 讨 论 的 方法 相 比 ,一 个 关键 的 差异 是 :基于 实例 的 方法 可 以 为 不 同 的 竺 分 类 查询 实例 建立 
RRM ASRS. BRE ,很 才 技 术 只 建立 目标 函数 的 局 部 盘 近 ,将 其 应 用 于 与 新 查询 实 
例 邻 近 的 实例 ,而 从 不 建立 在 整个 实例 空间 上 都 表现 良好 的 遵 近 。 当 目标 函数 很 复杂 但 却 可 
用 不 太 复 杂 的 局 部 通 近 描述 时 ,这样 做 有 显著 的 优势 。 

基于 实例 的 方法 也 可 以 使 用 更 复杂 的 符号 表示 法 来 描述 实例 。 在 基于 案例 的 学 习 中 , 实 
例 即 以 这 种 方式 表示 ,而 且 也 按照 这 种 方式 来 确定 邻近 实例 。 基 于 案例 的 推理 已 经 被 应 用 到 
很 多 任务 中 ,比如 ,在 咨询 台 上 存储 和 复 用 过 去 的 经 验 ;根据 以 前 的 法 律 案 件 进行 推理 ;前 过 复 
用 以 前 求解 的 问题 的 相关 部 分 来 解决 复杂 的 调度 问题 。 

基于 实例 方法 的 一 个 不 是 是 ,分 类 新 实例 的 开销 可 能 很 太 。 这 是 因为 几乎 所 有 的 计算 者 
发 生 在 分 类 时 ,而 不 是 在 第 一 次 遇 到 训练 样 例 时 。 所 以 ,如 何 有 效 地 索引 训练 样 例 , 以 减少 在 
询 时 所 需 的 计算 是 -个 重要 的 实践 问题 。 此 类 方法 的 第 二 个 不 足 是 (尤其 对 于 最 近邻 法 ), 妆 
从 存储 器 中 检索 相似 的 训练 样 例 时 ,它们 一 般 考虑 实例 的 所 有 属性 。 如 果 目 标 概念 仅 依 赖 于 
很 多 属性 中 的 几 个 时 ,那么 真正 最 “相似 "的 实例 之 间 很 可 能 相距 甚 远 。 

在 下 一 节 我 们 将 介绍 Rk- Nearest NEIGHBOR) 算 法 以 及 这 个 广泛 应 用 的 方法 的 几 
个 变 体 。 在 此 之 后 我 们 将 讨论 局 部 加 权 回 妇 法 , 它 是 一 种 建立 目标 函数 的 局 部 逼近 的 学 习 方 
法 ,这 种 方法 可 以 被 君 作 扣 近 邻 算法 的 一 般 形 式 。 然 后 我 们 描述 径 向 医 函 数 (radial basis 
function) 网 络 , 这 种 网 络 为 基于 实例 的 学 习 算 法 和 神经 网 络 学 习 算 法 提供 了 一 个 有 趣 的 桥梁 。 
再 下 一 节 讨 论 基于 案情 的 推理 ,一 种 使 用 符号 表示 和 基于 知识 的 推理 (knowledge-based inference) 
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一 一 一 


一 


的 方法 。 这 一 节 包 括 了 一 个 基于 案例 的 推理 应 用 实例 ,用 于 解决 工程 设计 问题 。 最 后 ,我 们 讨 
沦 了 本 章 讲述 的 消极 学 习 方 法 和 本 书 其 他 各 章 的 积极 (eager) 学 习 方法 间 的 差异 。 


8.2 -近邻 算法 


基于 实例 的 学 习 方 法 中 最 基本 的 是 下 近邻 算法 。 这 个 算法 假定 所 有 的 实例 对 应 于 n E 
THA” 中 的 点 。 一 个 实例 的 最 近邻 是 根据 标准 欧 氏 距离 定义 的 。 更 精确 地 讲 , 把 任意 的 实 
Bil x 表示 为 下 面 的 特征 同 量 : 
Caka) q(x),... an(x)) 


RP, a (ORREN r 的 第 r 个 属性 值 。 那么 两 个 实例 x, Ms, 间 的 距离 定义 为 dix, 
xi 其 中 | 


dais 2) = Dolata) = ae)? 


在 最 近邻 学 习 中 ,目标 函数 值 可 以 是 离散 值 也 可 以 是 实 值 。 我 们 先 考虑 学 习 以 下 形式 的 
ARHAR f: 罗 "> V。 其 中 是 有 限 集 合 | 01,... 050 28-1 Bi TRAE wR 
的 大 近邻 算法 。 正 如 表 中 所 指出 的 ,这 个 算法 的 返回 值 f( x, ) 为 对 fx, AT, EES 
x, 最 近 的 个 训练 样 例 中 最 普遍 的 f 值 。 如 果 我 们 选择 = 1, 那 么 1- 近邻 算法 "就 把 f(x;) 
REA (x,) ,其 中 x; 是 最 靠近 x, 的 训练 实例 。 对 于 较 大 的 有 值 ,这 个 算法 返回 前 个 最 谷 近 
的 训练 实例 中 最 普 训 的 值 。 

赛 8-1 Mite VIR 


训练 算法 : 
全 对 于 每 个 训练 样 例 (x ，/(x)) ,把 这 个 样 例 加 入 列表 training _ examples 
分 类 算法 
o 给 定 一 个 要 分 类 的 查询 实例 x， 
@v training _ examples 中 选 出 最 靠近 äg 的 个 实例 ,并 用 11... xy ER 
e ik i 
k 
Hr) + argmax Zo fC) 
Fh Bas b MAala, b)=1, RH F(a, 6} =0 


图 8-1 图 解 了 一 种 简单 情况 下 的 大 近邻 算法 ,在 这 里 实例 是 二 维 空间 中 的 点 ,目标 函数 
只 有 布尔 值 。 正 反 训练 样 例 用 * +” 和 “- "分 别 表示 。 图 中 也 画 出 了 一 个 查询 点 x,。 注 意 在 
这 幅 图 中 ,1- 近 邻 算法 把 x 分 类 为 正 例 , 然 面 $- 近 邻 算法 把 x, 分 类 为 反例 。 

有 近邻 算法 隐 含 考虑 的 假设 空间 H 的 特性 是 什么 呢 ? 注意 ,万 近 邻 算法 从 来 不 形成 关于 目 
标 函数 的 明确 的 一 般 假设 7。 它 仅 在 需要 时 计算 每 个 新 查询 实例 的 分 类 。 然 面 ,我 们 依然 可 
以 问 : 隐 售 的 一 般 函 数 是 什么 ? 或 者 说 ,如 果 保 持 训练 样 例 不 变 并 用 xX 中 的 每 个 可 能 实例 查询 
算法 ,会 得 到 什么 样 的 分 类 ? 图 8-1 中 的 右 图 画 出 了 1- 近邻 算法 在 整个 实例 空间 上 导致 的 决策 
面 形 状 。 决 策 面 是 围绕 每 个 训练 样 例 的 同 多 边 形 的 合并 。 对 于 每 个 训练 样 例 ,多 边 形 指出 了 一 
个 查询 点 集合 , 它 的 分 类 完全 由 相应 训练 样 例 决定 。 在 这 个 多 边 形 外 的 查询 点 更 接近 其 他 的 训 
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SEF BA 这 种 类 型 的 图 经 常 被 称 为 这 个 训练 样 例 集合 的 Voronoi Æ®( Voronoi diagram )。 





KAERT- RIKERE- TBA IN * 。1 - 近邻 算法 把 * 分 类 为 正 例 ,然而 5 - 近邻 算 
法 把 x, 分 类 为 反例。 右 图 是 对 于 一 个 典型 的 训练 样 主 集 台 1 - 近邻 算法 导致 的 决策 面 。 圈 绕 每 个 训练 样 例 的 凸 
多 边 形 表 示 最 契 近 这 个 点 的 实例 空间 ( 即 这 个 空间 中 的 实例 会 被 1 - 近邻 算法 赋 于 该 训练 样 例 所 属 的 分 类 ) 


图 8-1 -近邻 算法 


对 前 面 的 志 近 邻 算法 作 简单 的 修改 后 , 它 就 可 被 用 于 明和 近 连 续 值 的 目标 函数 。 为 了 实现 
这 一 点 ,我 们 让 算法 计算 个 最 接近 样 例 的 平均 值 ,而 不 是 计算 其 中 的 最 普 过 的 值 。 更 精确 
地 讲 , 为 了 逼近 一 个 实 值 目标 函数 f;%"* 如 我 们 上 只 要 把 算法 中 的 公式 蔡 换 为 : 


Die 
k 


HENES (8.1) 


8.2.1 上 距离 加 权 最 近邻 算法 


对 卢 近 邻 算 法 的 一 个 明显 的 改进 是 对 天 个 近邻 的 贡献 加 权 , 根 据 它们 相对 查 淘 点 xy 的 
PERS ,将 较 大 的 权 值 峡 给 较 近 的 近邻 。 例 如 ,在 表 8-1 TR HAE PRT AT A 
根据 每 个 近邻 与 * 的 中 离 平方 的 倒数 加 权 这 个 近邻 的 “选举 权 ”。 方 法 是 通过 用 下 式 取 代表 
8-1 算 法 中 的 公式 来 实现 ; 


FC ag) = argmax 2, wêl, fl«;)) (8.2) 
其 中 : 


l 
a 一 一 一 a3 
wt apa) i 


为 了 处 理 查询 点 x, 恰好 匹配 某 个 训练 样 例 xi, 从 而 导致 分 母 d(x,, x; 六 为 0 的 情况 ,我 们 令 
这 种 情况 下 的 f(x SEF /(%;)。 如 果 有 多 个 这 样 的 训练 样 例 ,我 们 使 用 它们 中 睛 多 数 的 分 尖 。 
我 们 也 可 以 用 类 似 的 方式 对 实 值 目标 函数 进行 距离 加 权 , 只 要 用 下 式 蔡 换 表 8-1 中 的 公 
A: 
Di wif (x;) 
> Ww 


i=l 


Ca < (8.4) 


O MAKE (Thiessen Polygons), ULM AMS MASA, —- TRAE AE —~ RBS 
EP AD TRE RS Le Po EE 
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其 中 ,w; 的 定义 与 式 (8.3) 中 相同 。 注 意 式 (8.4) 中 的 分 母 是 一 个 常量 , 它 将 不 同 权 值 的 
贡献 归 一 化 (例如 , 它 保 证 如 果 对 所 有 的 训练 样 例 x;, f(x) = ec, 那么 Fia ee) 

注意 ,以 上 无 近邻 算法 的 所 有 变 体 都 只 考虑 丰 个 近邻 用 以 分 类 查询 点 。 如 果 使 用 控 忠 漓 
MAL ,那么 允许 所 有 的 训练 样 例 影响 x, 的 分 类 事实 上 没有 坏处 ,因为 非常 远 的 实例 对 f(x, ) 
的 影响 很 小 。 考 虑 所 有 样 例 的 惟一 不 足 是 会 使 分 类 运行 得 更 慢 。 如 果 分 类 一 个 新 的 查询 实例 
时 考虑 所 有 的 训练 样 例 ,我 们 称 它 为 全 局 (global) 法 。 如 果 仅 考虑 最 靠近 的 训练 样 例 ,我 们 称 
它 为 局 部 (local) 法 。 当 式 (8.4) 的 法 则 被 应 用 为 全 局 法 时 , 它 被 称 为 Shepard 法 (Shepard 
1968) 。 


8.2.2 对 大 近 邻 算法 的 说 明 


按 距 离 加 权 的 车 近邻 算法 是 一 种 非常 有 效 的 轨 纳 推理 方法 。 它 对 训练 数据 中 的 噪声 有 
很 好 的 健壮 性 ,而且 当 给 定 足够 大 的 训练 集合 时 也 非常 有 效 。 注 意 ,通过 取 撕 个 近 令 的 加 极 
平均 ,可 以 消除 孤立 的 噪声 样 俩 的 影 啊 。 

二 近邻 算法 的 归纳 偏 奸 是 什么 呢 ? 通过 分 析 图 8-1 中 的 示例 ,可 以 很 容易 地 理解 这 种 算 
法 分 类 新 查询 实例 的 根据 。 它 的 归纳 偏 置 对 应 于 假定 ;一 个 实例 的 分 类 x 与 在 欧 氏 空间 中 
它 附 近 的 实例 的 分 类 相似 。 

应 用 左近 分 算法 的 一 个 实践 问题 是 ,实例 间 的 距离 是 根据 实例 的 所 有 属性 (也 就 是 包 会 
实例 的 欧 氏 空间 的 所 有 上 坐标 轴 } 计 算 的 。 这 与 那些 只 选择 全 部 实例 属性 的 一 个 子 集 的 方法 不 
同 ,例如 决策 树 学 习 系 统 。 为 了 理解 这 种 策略 的 影响 ,考虑 把 上 近邻 算法 应 用 到 这 样 一 个 问 
题 :每 个 实例 20 个 属性 描述 ,但 在 这 些 属 性 中 仅 有 2 仿 与 它 的 分 类 有 关 。 在 这 种 傅 读 下 ,这 
两 个 相关 属性 的 值 一 致 的 实例 可 能 在 这 个 20 AEROS SE B PB Re, SR ,依赖 这 20 个 
属性 的 相似 性 度量 会 误导 天 近邻 算法 的 分 类 。 近 邻 间 的 距离 会 被 大 量 的 不 相关 属性 其 支配 。 
这 种 由 于 存在 很 多 不 相关 属性 所 导致 的 难题 ,有 时 被 称 为 维度 灾难 (vurse of dimensionality), 
最 近邻 方法 对 这 个 问题 特别 敏感 。 

解决 该 问题 的 一 个 有 趣 的 方法 是 , 当 计 算 两 个 实例 闻 的 距离 时 ,对 每 个 属性 加 权 。 这 相当 
和 王 按 比例 缩放 欧 氏 空间 中 的 坐标 轴 ,缩短 对 应 于 不 太 相 关 的 属性 的 坐标 轴 , 拉 长 对 应 于 喝 相 关 
的 属性 的 坐标 轴 。 每 个 坐标 轴 应 伸展 的 数量 可 以 通过 交叉 验证 的 方法 自动 决定 。 具 体 司 法 如 
下 ,首先 ,假定 使 用 因子 z RERE j 个 根 坐 标 轴 , 选 择 2 的 各 个 值 z1… z 以 使 学 习 算 法 
的 真实 分 类 错误 率 最 小 化 。 其 次 ,这 个 真实 错误 率 可 以 使 用 交叉 验证 来 估计 。 所 以 ,一 种 算法 
是 随机 选取 现 有 数据 的 一 个 子 集 作为 训练 样 例 , 然 后 决定 z1… zx MRNA ix 
率 最 小 化 。 通 过 多 次 重复 这 个 处 理 过 程 ,可 以 使 加 权 因 子 的 估计 更 加 准确 。 这 种 伸展 坐标 轴 
以 优化 大 近邻 算法 的 过 程 ,提供 了 一 种 抑制 无 关 属 狂 影响 的 机 制 。 

另外 一 种 更 强 有 力 的 方法 是 从 实例 空间 中 完全 消除 最 不 相关 的 属性 。 这 等 效 于 说 置 某 个 
缩放 因子 z; 为 0。Moore & Lee(1994) 讨 论 了 有 效 的 交叉 验证 方法 ,为 如 近 邻 算法 选择 相关 
的 属性 子 集 。 确 切 地 讲 , 他 们 探索 了 基于 “ 留 一 法 ”(leave-one-out) 的 交叉 验证 ,在 这 种 方法 中 ， 
m 个 训练 实例 的 集合 以 各 种 可 能 方式 被 分 成 mm - 1 个 实例 的 训练 集合 和 1 个 实例 的 测试 集 
合 。 这 种 方法 在 如 近邻 算法 中 是 容易 实现 的 ,因为 每 一 次 重新 定义 训练 集 时 不 需要 额外 的 训 
练 工作 。 注 意 , 上 面 的 两 种 方法 都 可 以 被 看 作 以 某 个 常量 因子 伸展 坐标 轴 。 另 外 一 种 可 选 的 
做 法 是 使 用 一 个 在 实例 空间 上 变化 的 值 伸展 坐标 轴 。 这 样 增加 了 算法 重新 定义 中 元 度量 的 有 


eee ee eer -一 -一 
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由 度 , 然 而 也 增加 了 过 度 拟 合 的 风险 。 所 以 ,局 部 伸展 坐标 轴 的 方法 是 不 太 和 常见 的 。 

应 用 近邻 算法 的 另外 一 个 实践 问题 是 如 何 建立 高 效 的 索引 。 因 为 这 个 算法 推迟 所 有 
的 处 理 , 直 到 接收 到 一 个 新 的 查询 ,所 以 处 理 每 个 新 查询 可 能 需要 大 量 的 计算 。 目 前 已 经 开发 
了 很 多 方法 用 来 对 存储 的 训练 样 例 进 行 索引 ,以 便 在 增加 一 定 存 储 开销 情况 下 更 高 效 地 确定 
最 近邻 。 一 种 索引 方法 是 kd-tree( Bentley 1975; Friedman et al. 19771) , 它 把 实例 存储 在 树 的 
叶 结 点 内 ,邻近 的 实例 存储 在 同一 个 或 附近 的 结 点 内 。 通 过 测试 新 查询 x, 的 选 定 属性 , 树 的 
内 部 结 点 把 查询 x。 排列 到 相关 的 叶 结 点 。 


8.2.3 术语 注解 


在 关于 最 近邻 法 和 局 部 加 权 回 归 法 的 很 多 文献 中 ,使 用 了 一 些 来 自 统 计 模 式 识别 领域 的 
术 说 。 在 阅读 这 些 文献 时 ,了解 下 列 术 语 是 很 有 帮助 的 ; 
è 回归 (Regression) 的 含义 是 通 近 一 个 实数 值 的 月 标 函 数 。 
@ *% # (Residual) ZEM BRN HR f(x) - fla). 
@ H AX (Kernel function) E — THA AR. CEHRRESTUARAN RE. RAE 
Ui, FARA EH w= KCd(x,, x) AY PAL Ko 


8.3 局 部 加 权 回 妇 


前 一 节 描述 的 最 近 今 方法 可 以 被 看 作 在 单一 的 查询 点 * = a, 上 逼近 目标 函数 /( *)。 局 
部 加 权 锣 归 是 这 种 方法 的 推广 。 它 在 环绕 * 的 局 部 区 域内 为 目标 函数 建立 明确 的 逼近 。 
局 部 加 权 回 归 使 用 附近 的 或 距离 加 权 的 训练 样 例 来 形成 这 种 对 f 的 局 部 鼻 近 。 例 如 ,我 们 可 
以 使 用 线性 函数 ,二 次 函数 ,多 层 神经 网 络 或 者 其 他 函数 形式 在 环绕 x, 的 邻 域内 逼近 目标 函 
数 。“ 局 部 加 权 回 归 ” 名 称 中 ,之 所 以 叫 “ 局 部 "是 因为 目标 函数 的 还 近 仅仅 根据 查询 点 附近 的 
数据 ;之 所 以 叫 * 加 权 ” 是 因为 每 一 个 训练 样 例 的 贡献 是 由 它 与 查询 点 间 的 距离 加 权 的 ;之 所 以 
叫 “ 回 归 ” 是 因为 统计 学 习 界 广泛 使 用 这 个 术语 来 表示 通 近 实数 值 浮 数 的 问题 。 

给 定 一 个 新 的 查询 实例 x,, 局 部 加 权 回归 的 一 般 方法 是 建立 一 个 下 近 了 ,使 了 拟 合 环绕 
x 的 邻 域内 的 训练 样 例 。 然 后 用 这 个 逼近 来 计算 了 (x,) 的 值 ,也 就 是 为 查询 实例 估计 的 目标 
值 输出 。 然 后 ? 的 描述 被 删除 ,因为 对 于 每 一 个 独立 的 查询 实例 都 会 计算 不 同 的 局 部 通 近 。 


8.3.1 局 部 加 权 线 性 回归 


下 面 , 我 们 先 考虑 局 部 加 权 回 归 的 一 种 情况 ,即使 用 如 下 形式 的 线性 函数 来 和 逼近 x, WR 
fx) = wy + wiaj x) + °° + w,a,(*) 
和 前 面 一 样 , a; ( x ) 表 示 实 例 x 的 第 ;个 属性 值 。 
回忆 第 4 章 中 我 们 讨论 的 梯度 下 降 方法 ,在 拟 合 以 上 形式 的 线性 一 数 到 给 定 的 训练 集合 
时 , 它 被 用 来 找到 使 误差 最 小 化 的 系数 wo… wu。 在 那 一 章 中 我 们 感 兴趣 的 是 目标 函数 的 全 
局 允 近 。 所 以 当时 我 们 推导 出 的 权 值 选择 方法 是 使 训练 集合 D 上 的 误差 平方 和 最 小 化 , 即 : 
E = 7 Lla) - fl)? (8.5) 


根据 这 个 误差 定义 ,我 们 得 出 了 以 下 梯度 下 降 训 练 法 则 : 
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FE EO 


Aw; = 92 (f(x) - flx)a(x) (8.6) 
zé Ñ 


其 中 ,7? 是 一 个 常数 , 称 为 学 习 速 率 。 而 且 这 个 法 则 已 经 被 重新 表示 ,修改 了 其 中 第 4 章 
中 的 记号 以 匹配 当前 的 记号 {也 就 是 ,i f(x) om f(x), 2a, (%))0 

我 们 应 该 如 何 修改 这 个 过 程 来 推导 出 局 部 逼近 呢 ? 简单 的 方法 是 重新 定义 误差 准则 E 
以 着 重 于 拟 合 局 部 训练 样 例 。 下 面 给 出 了 三 种 可 能 的 误差 准则 。 注 意 ,我 们 把 误差 瑟 为 
E(x,) ,目的 是 为 了 强调 目前 的 谋 差 被 定义 为 查询 点 x, 的 函数 。 

D 只 对 在 个 近邻 上 的 误差 平方 最 小 化 : 


Ex) > (fle) - fla? 
I r Mei 


2) 使 整个 训练 样 例 集 合 D 上 的 误差 平方 最 小 化 ,但 对 每 个 训练 样 例 加 权 , 权 值 为 关于 相 
中 Xy 距离 的 某 个 递减 函数 下 : 


B(x) = 7) - F(x)? K(d(x,.2)) 
3) 综合 1 和 ?2: 
Ela) = Dy (fla) = Hx) Kd ag 8) 


准则 2 或 许 是 最 令 人 满意 的 ,因为 它 允 许 每 个 训练 样 例 都 对 x, 的 分 类 产生 影响 。 然 而 这 
种 方法 所 需 的 计算 量 随 着 训练 样 例 数量 线性 增长 。 淮 则 3 很 好 地 近似 了 准则 2, 并 且 具 有 如 
下 优点 :计算 开销 独立 于 训练 样 例 总 数 , 而 仅 依 赖 于 所 考虑 的 最 近邻 数 上。 

如 果 使 用 上 面 的 准则 3, 并 使 用 与 第 4 章 相 辐 的 推理 方式 重新 推导 梯度 下 降 法 则 ,可 以 得 
到 以 下 训练 法 则 (见习 题 8, 1): 


Awi = 7 D2, Kld(xoa))( f(r) - f(x))a(x) (8.7) 
sx eb 


注意 ,这 个 新 的 法 则 和 式 (8.6) 给 出 的 法 则 的 差异 是 :实例 x 对 权 值 更 新 的 贡献 现在 乘 上 
了 一 个 距离 惩罚 项 天 (d(x ，x)) ,并 且 仅 对 上 上 个 最 邻近 的 训练 实例 的 误差 求 和 。 事 实 上 ,如 
果 要 使 一 个 线性 函数 拟 合 国定 的 训练 样 例 集合 ,那么 有 一 些 比 梯度 下 降 更 高 效 的 方法 ,它们 直 
接 求 解 所 需要 的 系数 wo wo Atkeson et al. (1997a) 4 Bishop(1995) 调 查 了 几 个 这 样 的 方 
法 。 


8.3.2 局 部 加 权 回 归 的 说 明 


上 面 我 们 考虑 了 使 用 一 个 线性 函数 在 查询 实例 x, 的 邻 域内 逼近 /在 局 部 加 权 回 归 的 
文献 中 ,在 对 训练 样 例 距 离 加 权 方 面 ,包含 大 量 的 可 选 方法 ,还 包含 大 量 的 目标 函数 局 部 通 近 
方法 。 大 多 数 情 况 下 ,通过 一 个 常量 、 线 性 函数 或 二 次 函数 来 局 部 通 近 目标 函数 ,更 复杂 的 函 
数 形式 不 太 常 见 ,原因 是 ;(1) 对 每 个 查询 实例 用 更 复杂 的 函数 来 拟 合 ,其 代价 十 分 高 昂 ;(2) 在 
足够 小 的 实例 空间 子 城 上 ,使 用 这 些 简 单 的 近似 已 能 相当 好 地 模拟 日 标 函数 。 


8.4 径 向 基 沙 数 


另 一 种 函数 融 近 网 方 法 是 使 用 径 向 基 哨 数 {radial basis function) ,这 种 方法 与 距离 加 权 回 
归 和 人 工 神 经 网 络 都 有 着 紧密 联系 (Powell 1987; Broomhead & Lowe 1988; Moody & Darken 
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1989) 。 在 这 种 方法 中 , 待 学 习 的 很 设 是 一 个 以 下 形式 的 响 数 : 
fix) = wo + Dy WyKy( dl ay.) (8.8) 


其 中 ,每 个 x, HEX 中 一 个 实例 , 核 臣 数 KK,{ d(x,，x)) 被 定义 为 随 肥 离 d(x,, x) MY 
大 而 减 小 。 这 里 的 大 是 用 户 提 供 的 常量 ,用 来 指定 变 包 含 的 核 隔 数 的 数量 。 尽 管 F(x) 是 对 
F(x) 的 全 局 通 近 ,但 来 自 每 个 K,(d(x,，x)) 项 的 贡献 被 局 部 化 到 点 x, 附近 的 区 域 。 一 种 
很 常 匈 的 做 法 是 选择 每 个 核 函 数 K dia, x) ARIAS Gaussian function)( 见 家 5-4), 
高 斯 函数 的 中 心 点 为 x, ,方差 是 cz。 

Re 

下 面 我 们 来 集中 讨论 这 个 常见 的 高 斯 核 国 数 。 杠 据 Hartman et al. ( 1990) 所 指出 的 , 式 
(8.8) 这 样 的 函数 形式 能 够 以 任意 小 的 误差 逼近 任何 消 数 ,只 要 以 上 高 斯 核 的 数量 上 足够 大 ， 
并 且 可 以 分 别 指定 每 个 核 的 宽度 o. 

式 (8. 8) 给 出 的 函数 可 以 被 看 作 是 描述 了 一 个 两 层 的 网 络 ,第 一 层 计 算 不 同 的 
KK,(a(x,，x)), 第 二 层 计算 第 一 层 单元 值 的 线性 组 合 。 图 8-2 iH T Ae e 
{RBF) 网 络 的 例子 。 





E is 
a ,{x) a, (x} a {x) 


每 个 隐藏 单元 产生 一 个 激发 (activation) , 它 由 以 基 个 实例 x。 为 中 心 的 高 斯 函数 决定 。 所 以 ,除非 x W 2 
WER RES 0。 输 出 单元 产生 的 输出 是 隐语 单元 若 发 的 线性 组 合 。 尽 管 这 望 画 出 的 网 络 仅 有 一 个 输出 ， 
但 是 也 可 以 包含 宪 个 辕 出 


图 8-2 径 向 基 函 数 网 络 


给 定 了 目标 函数 的 训练 样 例 集 合 ,一 般 分 两 个 阶段 来 训练 RBF 网 络 。 首 先 ,决定 隐藏 单 
元 的 数量 k, JERE MKB K,(d(x,, 2) x, 和 os 值 定义 每 个 隐藏 单 元 。 其 次 ， 
使 用 式 (8.5) 给 出 的 全 局 误差 准则 来 训练 权 值 w。, 使 网 络 拟 合 训练 数据 程度 最 大 化 。 因 为 核 
函数 在 第 二 阶段 是 保持 不 变 的 ,所 以 线性 权 值 w。 可 以 被 非常 高 效 地 训练 得 到 。 

人 们 已 经 提出 了 几 种 方法 来 选取 适当 的 隐藏 单 元 或 者 说 核 汕 数 的 数量 。 第 一 种 方法 是 为 
每 一 个 训练 样 例 (x;， f (x, DAAR a A, e TK aE AS a E EA jo 所 有 
高 斯 函数 的 宽度 o? 可 被 赋予 同样 的 值 。 通 过 这 种 方法 ,RBF 网 络 学 习 目标 函数 的 全 局 通 近 ， 
其 中 每 个 训练 样 例 (x, ，A (x, 都 只 在 x; 的 邻 域内 影响 六 的 值 。 这 样 选择 核 函数 的 -个 优 
ARE SIE RBF 网 络 精确 地 拟 合 训练 数据 。 也 就 是 说 ,对 于 任意 m 个 训练 样 例 集合 ,合并 m 
个 高 斯 核 函 数 的 权 值 wo… wa 可 以 被 设置 为 使 得 对 于 每 一 个 训练 样 例 (x;:，f (xi)) 都 满足 
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f(x) =f Cae 

SAAR ER ARTA RS a, AE a E E 
有 效 REEVE KRKE BRAR ERAKAR X LETS 
‘CZARA. BRE AY RAA eK RP PP TE SE BARE 上 非 均 
匀 分 布 的 时 候 。 在 后 一 种 情况 下 EARL RR PPR EA RR PU AT 
对 实例 的 基准 分 布 进行 采样 。 或 者 ,我 们 可 以 标识 出 实例 的 原始 聚 类 (prototypical cluster) , 然 
后 以 每 个 聚 类 为 中 心 如 人 一 个 核 图 数 。 这 种 方式 的 核 图 数 布置 可 以 通过 非 监督 的 聚 类 算法 来 
实现 ,其 中 把 训练 实例 (不 包含 目标 值 ) 拟 合 到 混合 高 斯 。 第 6. 12.1 节 讨 论 的 EM 算法 提供 了 
一 种 从 下 个 高 斯 明 数 的 混合 中 选择 均值 ,以 最 侍 拟 全 观测 到 实例 的 方法 。 在 EM 算法 中 , 均 
值 的 选取 方法 是 :对 给 定 的 个 估计 的 均值 ,使 观测 到 实例 x; 的 概率 最 大 化 。 注 意 ,在 无 监督 
的 聚 类 方法 中 ,实例 的 目标 函数 值 f(x;) 不 参与 核 明 数 中 心 的 计算 。 目 标 岗 数值 fl, AE 
一 作用 是 决定 输出 层 的 权 值 wo 

总 而 言 之 ,用 多 个 局 部 核 消 数 的 线性 组 合 表示 的 征 问 基 录 数 网 络 提供 了 一 种 自 标 消 数 的 
aii. (MRA x BART RR OAR ire XK RABY xX he ee 
EPT ZH. A, RBF AS Ra ER RS TABI ERATE. RBF 
网 络 的 一 个 重要 优点 是 ,与 反 向 传播 算法 训练 的 前 馈 网 络 相 比 , 它 的 训练 更 加 高 效 。 这 是 因为 
RBF 网 络 的 输入 屋 和 输出 层 可 以 被 分 别 训练 。 


8.5 基于 案例 的 推理 


所 近邻 算法 和 局 部 加 权 回 归 都 是 基于 实例 的 方法 ,它们 具有 三 个 共同 的 关键 特性 。 第 一 ， 
它们 是 消极 学 习 方法 ,都 把 在 训练 数据 之 外 的 证 化 推迟 至 遇 到 一 个 新 的 查询 实例 时 才 进 行 。 
第 二 ,它们 通过 分 析 相 似 的 实例 来 分 类 新 的 查询 实例 ,而 忽 赂 与 查询 极其 不 同 的 实例 。 第 一 ， 
它们 把 实例 表示 为 n 维 欧 氏 空间 中 的 实数 点 。 基 于 案例 的 推理 (case-based reasoning,CBR) 这 
种 学 习 范 型 基于 前 两 个 源 则 ,但 不 包括 第 3 个 。 在 CBR 中 ,一 般 使 用 更 丰富 的 符号 描述 来 表 
示 实 例 ; 相 应 地 ,用 来 检索 实例 的 方法 也 更 加 复杂 。CBR 已 被 应 用 于 解决 很 多 问题 ,比如 , 根 
扣 数 据 库 中 以 前 存储 的 设计 图 纸 , 来 进行 机 械 设 备 的 总 体 设计 (Sycara et al. 1992); PRA Bi 
的 裁决 来 对 新 的 法 律 案件 进行 推理 (Ashley 1990) ;通过 对 以 前 的 相似 问题 的 解决 方案 的 复 用 
或 合并 ,来 解决 规划 和 调度 问题 (Velosc 1992)。 

作为 以 后 讨论 的 基础 ,让 我 们 考虑 基于 案例 的 推理 系统 的 一 个 例 于 。CADET 系统 
(Sycara et 中 ,1992) 采 用 基于 案例 的 推理 来 辅助 简单 机 械 设备 (例如 ,水 龙头 ) 的 总 体 设 计 。 它 
使 用 一 个 数据 库 , 其 中 包含 大 约 75 个 以 前 的 设计 或 设计 片断 ,来 推荐 符合 新 的 设计 规格 的 总 
体 设计 。 内 存 中 每 一 个 实例 是 通过 它 的 结构 和 定性 的 功能 来 表示 的 。 与 此 相应 ,新 的 设计 问 
题 通 过 所 要 求 的 功能 和 结构 来 表示 。 图 8-3 画 出 了 这 个 问题 。 图 的 上 半 部 分 显示 了 一 个 典型 
的 存储 案例 ,被 称 为 T 型 接头 管 。 它 的 功能 被 表示 为 输 人 和 输出 点 的 流量 和 温度 间 的 定性 天 
系 。 在 右 侧 的 功能 描述 中 , 标 有 “+ "的 箭头 表明 箭头 头 部 的 变量 随 着 稍 头 尾部 的 变量 上 升 。 
例如 ,输出 流量 03 随 着 输 人 流量 0 增长 。 类 似 地 ,“ - "标记 表明 箭头 头 部 的 变量 随 着 稍 头 
尾部 的 变量 下 降 。 这 幅 图 的 下 半 部 分 画 出 了 一 个 新 的 设计 问题 , 它 逼 过 新 设计 中 所 要 求 的 芒 
能 来 描述 。 这 个 功能 描绘 了 一 种 水 龙头 的 行为 特征 。 这 里 &。 指 进 人 水 龙头 的 冷水 流量 , Q 


ww ai bbt.com PO0O0O0D0D0OO 





B&F KFT HHST 173 


eA et ei 





— = as mr 


指 热 水 的 输 人 流量 , O。 指 流出 水 龙头 的 单一 混合 流量 。 与 此 类 做 , T.. T, 和 了， 分 别 指 热 
水 .冷水 和 混合 水 流 的 湿度。 变量 C 表示 输入 到 水 龙头 的 温度 控制 信号, C 表示 对 水 流 的 控 
制 信和 号。 注意 ,所 要 求 的 功能 描述 中 指出 ,这 些 控制 信和 号 C 和 Cj 用 来 影响 水 流 Q. 和 Qa, M 
而 间接 影响 水 龙头 的 输出 流量 Qn MRE Tno 


一 个 存 情 的 案例 : THREE 
Se Hi: Ti fe: 


OF 了 = (temperature) 
oe O = 水 流 {watertlaw) Q, ~t 
Í 0, 
— QLL 2 ý 
73 
4 1 > 
T 
3 
QF T, + 


-- 4 EAGAN: AK 
Ei H: TH) MB: 


C Ora 
? St So, 
c ha, 
T 
Cc 
Ti 


上 半 部 分 措 给 了 CADET 案例 库 中 一 个 典型 的 设计 片断 。 它 的 功能 是 通过 了 型 接头 变量 间 的 定性 依赖 关系 图 
表示 的 (在 正文 中 具体 描述 )。 下 半 部 分 显示 了 一 个 典型 的 设计 问题 


图 8-3 存 情 的 案例 和 新 问题 


给 定 新 设计 问题 的 功能 说 明 ,CADET 从 它 的 案例 库 中 搜索 存储 的 案例 ,使 它 的 功能 描述 
和 新 设计 问题 相 匹 配 。 如 果 发 现 了 一 个 精确 的 匹配 , 表 明 某 个 存储 案例 精确 实现 了 所 要 求 的 
功能 ,那么 可 以 返回 这 个 案例 作为 新 设计 问题 的 建议 方案 。 如 果 没 有 发 现 精确 的 匹配 ， 
CADET 可 能 找到 匹配 所 浸 功 能 的 不 同 子 图 的 案例 。 例 如 ,在 图 8-3 中 ,T 型 接头 的 功能 区 配 
了 水 龙头 功能 图 的 一 个 子 图 。 更 一 般 地 讲 ,CADET 在 两 个 功能 图 间 搜 索 同 构 子 图 (isomor- 
phisms subgraph ) Lhe RP SS BS EE VOT A AB VSD eah RBC 
可 以 加 工 原始 的 功能 说 明 图 ,产生 等 价 的 子 图 以 匹配 更 多 的 案例 。 它 使 用 关于 物理 感应 的 一 
般 知 识 来 创建 这 样 的 加 工 过 的 功能 图 。 例 如 ,利用 一 种 重 写 规则 可 以 把 以 下 感应 : 

A->B 
重 写 为 : 
A-—*x—*B 

这 个 童 写 规则 可 以 被 解释 为 ;如 果 s 随 4 上 升 ,那么 一 定 可 以 找到 某 个 x ,满足 8B 随 x 
ERME r BA tA, RE, r 是 一 个 全 称 量化 的 变量 , 它 在 功能 图 与 这 个 案例 库 匹 配 时 松 
限定 。 事 实 土 ,图 8-3 中 的 水 龙头 的 功能 图 就 是 应 用 这 个 重 写 规则 从 原来 的 功能 说 明 中 加 工 
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得 到 的 。 
通过 检索 匹配 不 同 子 图 的 多 个 案例 ,有 了 时 可 以 拼接 得 到 整个 设计 。 一 般 来 说 ,从 多 个 检索 
到 的 案例 产生 最 终 方 案 的 过 程 可 以 很 复杂 。 为 了 合并 存储 案例 中 检索 到 的 部 分 ,可 能 需要 从 
头 设 计 系 统 的 各 个 部 分 ,也 可 能 需要 回潮 以 前 的 说 计 子 目标 ,从 而 挡 弃 前 面 检 索 到 的 案例 。 
CADET 合并 和 自 适 应 已 检索 到 案例 并 形成 最 终 设 计 的 能 力 很 有 和 限 , 它 主要 依赖 用 户 来 做 自 
适应 阶段 的 处 理 。 正 如 Sycara et 是.(1992) 所 括 述 的 ,CADET 是 一 个 研究 用 的 原型 系统 ,用 来 
探索 基于 案例 的 推理 在 总 体 设计 中 的 潜在 作用 。 它 不 具备 用 来 把 这 些 抽象 的 总 体 设计 提炼 成 
最 终 设计 的 分 析 算 法 。 
对 于 CADET 的 问题 框架 和 基于 实例 的 方法 (例如 ,近邻 算法 ) 的 一 般 框架 ,分 析 它 们 之 
间 的 对 应 之 处 是 有 益 的 。 在 CADET 中 每 个 存储 的 训练 样 例 描绘 了 一 个 功能 图 以 及 实现 该 功 
能 的 结构 。 新 的 查询 对 应 新 的 功能 图 。 因 此 ,我 们 可 以 把 CADET 的 问题 映射 到 标准 的 学 习 
问题 定义 中 。 其 中 ,实例 空间 X 定 多 为 所 有 功能 图 的 空间 。 且 标 函 数 f 映射 到 实现 这 些 功 能 
的 结构 。 每 个 存储 训练 样 例 (x，f (x ) 是 一 个 序 偶 , 描 述 某 个 功能 图 x 和 实现 x 的 结构 
f(x)。 系 统 必 须 学 习 训练 案例 ,以 输出 满足 功能 图 查询 输入 x, 的 结构 f(x,)。 
LGR CADET 系统 简要 描述 说 明了 基于 案例 的 推理 系统 区 别 于 -近邻 这 样 的 方法 的 
AFRE: 
© 实例 或 案例 可 以 用 丰富 的 符号 描述 表示 ,就 像 CADET 中 使 用 的 功能 图 。 这 可 能 需要 
不 同 于 歇 氏 四 离 的 相似 性 度量 ,比如 两 个 功能 图 的 最 大 可 共享 子 图 的 太 小 。 
s 检索 到 的 多 个 案例 可 以 合并 形成 新 问题 的 解决 方案 。 这 与 天 近邻 方法 相似 一 一 多 个 
相似 的 案例 用 来 构成 对 新 查询 的 回答 。 然 而 ,合并 多 个 检索 到 的 案例 的 过 程 与 近邻 
有 很 大 不 同 , 它 依赖 于 知识 推理 而 不 是 统计 方法 。 
© 案例 检索 .基于 知识 的 推理 和 问题 求解 间 是 紧密 耦合 在 一 起 的 。 例 如 CADET 系统 在 
尝试 找到 匹配 的 案例 过 程 中 , 它 使 用 有 关 物 理 感应 的 一 般 知 识 重 写 了 功能 图 。 人 们 已 
经 开发 出 很 多 其 他 的 系统 ,这 些 系统 更 加 完整 地 把 基于 案例 的 推理 集成 到 基于 搜索 的 
问题 求解 系统 中 。 ANAPRON( Golding & Rosenbloom 1991) 和 Propicy/ANALocY{ Veloso 
1992) 是 这 样 的 两 个 例子 。 
概括 地 讲 , 基 于 案 俩 的 推理 是 一 种 基于 实例 的 党 习 方 法 ,在 这 种 方法 中 ,实例 (案例 ) 可 以 
是 丰富 的 关系 的 描述 。 而 且 在 该 方法 中 ,为 了 解决 当前 查询 ,案例 检索 和 合并 过 程 可 能 依赖 于 
知识 推理 和 搜索 密集 的 问题 求解 方法 。 目 前 关于 基于 案例 的 推理 研究 的 一 个 课题 是 ,改进 索 
引 案 例 的 方法 。 这 里 的 中 心 问题 是 句法 相似 度量 {例如 ,功能 图 之 间 的 子 图 同 构 ) 仪 能 近似 地 
指出 特定 案例 与 特定 问题 的 相关 度 。 当 CBR 系统 试图 复 用 检索 到 的 案例 时 , 它 可 能 过 到 名 法 
相似 度量 中 没有 捕 提 到 的 难点 。 便 如 ,在 CADET 中 ,检索 到 的 多 个 设计 片断 可 能 彼此 不 兼 
R ,使 得 它们 无 法 被 合并 到 一 个 统一 的 最 终 设 计 中 。 一 般 当 这 种 情况 发 生 时 ,CBR 系统 可 回 
漳 搜 索 另 外 的 案例 以 适应 现 有 的 案例 ,或 者 求助 于 其 他 的 问题 求解 方法 。 重 要 的 是 , 当 检 测 到 
这 样 的 难点 时 ,它们 也 提供 了 用 来 改进 相似 性 度量 (或 等 价 的 ,案例 库 索 引 结 构 ) 的 训练 数据 。 
确切 地 讲 ,如 果 根 据 相似 性 度量 检索 到 了 一 个 案例 ,但 在 进一步 的 分 析 中 发 现 这 个 案例 与 当前 
的 设计 是 无 闫 的 ,那么 这 个 相似 性 度量 会 被 改进 ,以 便 对 于 以 后 的 类 似 查 询 拒 绝 这 个 案例 ， 
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8.6 对 消极 学 习 和 积极 学 习 的 评论 


在 这 -一 章 中 我 们 考虑 了 三 种 消极 学 习 (Iazy learning) 方 法 ;有 近邻 算法 ,局 部 加 权 回 归 和 
基于 案例 的 推理 。 之 所 以 称 这 些 方法 是 消极 的 ,是 因为 它们 延迟 了 如 何 从 训练 数据 中 汉化 的 
决策 ,直到 遇 到 一 个 新 的 查询 案例 时 才 进 行 。 本 章 讨 论 了 一 种 积极 学 习 方 法 :学 习 径 向 基 函 数 
网 络 的 方法 。 之 所 以 称 这 种 方法 是 积极 的 ,是 因为 它 在 见 到 新 的 查询 之 前 就 做 好 了 汉化 的 工 
作 一 一 在 训练 时 提交 了 定义 其 目标 函数 通 近 的 网 络 结构 和 权 值 。 根 据 同 样 的 理解 ,本 书 其 他 
章节 讨论 的 所 有 其 他 算法 都 是 积极 学 习 算法 (例如 , 反 向 传播 算法 .C4.5)。 

在 算法 能 力 方面 ,消极 方法 和 积极 方法 有 重要 差异 蚂 ? 我 们 先 区 分 两 种 差异 :计算 时 间 的 
差异 和 对 新 查询 的 分 类 差异 。 在 计算 时 间 方 面 ,消极 方法 和 积极 方法 显然 有 差异 。 例 如 ,消极 
方法 在 训练 时 一 般 需 要 较 少 的 计算 ,但 在 预测 新 查询 的 目标 值 时 需要 更 多 的 计算 时 间 。 

更 基本 的 问题 是 ,在 归纳 偏 置 方面 消极 和 积极 方法 是 否 有 实质 性 的 差异 呢 ? 在 这 方面 两 
种 方法 的 关键 差异 是 : 

e 消极 方法 在 决定 如 何 从 训练 数据 D 中 泛 化 时 考 虚 查 询 实例 x 。 

e 积极 方法 不 能 做 到 这 一 点 ,因为 在 见 到 查询 实例 x, 前 ,它们 已 经 选取 了 对 目标 函数 的 

($A). 

这 个 区 别 会 影响 学 习 器 的 证 化 精度 吗 ? 如 果 要 求 消 航 的 和 积极 的 学 习 器 采用 同一 个 假设 
空间 万 ,那么 答案 是 肯定 的 。 为 了 说 明 这 一 点 , 考 章 由 线性 函数 组 成 的 假设 空间 。 前 面 讨论 
的 局 部 加 权 回 归 算 法 是 基于 这 样 的 假设 空间 的 消极 学 习 方法 。 对 于 每 个 新 查询 x, , 它 根据 
x, 附近 的 训练 样 例 选择 一 个 新 的 假设 从 训练 数据 中 证 化 。 相 反 ,一 个 使 用 同样 的 线性 函数 候 
设 空间 的 积极 学 习 器 必须 在 见 到 查询 之 前 选择 对 目标 函数 的 站 近 。 所 以 积极 学 习 器 必须 提交 
单个 的 线性 函数 假设 ,以 枢 盖 整个 实例 空间 和 所 有 未 来 的 查询 。 消 极 学 习 方法 有 效 地 使 用 了 
更 丰富 的 假设 空间 ,因为 它 使 用 很 多 不 同 的 局 部 线性 函数 来 形成 对 目标 函数 的 隐 合 的 全 局 到 
近 。 注 意 ,其 他 的 一 些 学 习 器 和 假设 空间 也 符合 同样 的 情况 。 例 如 上 反 向 传播 算法 的 消极 版 本 ， 
可 以 对 每 个 独立 的 查询 点 学 习 不 同 的 神经 网 络 。 这 与 第 4 章 讨论 的 反 向 传播 算法 的 积极 版 本 
形成 对 照 。 

上 面 一 段 的 核心 观点 是 ,消极 的 学 习 器 可 以 通过 很 多 局 部 盘 近 的 组 合 ( 隐 含 地) 表示 目标 
函数 ,然而 积极 的 学 习 器 必须 在 训练 时 提交 单个 的 全 局 所 近 。 因 此 积极 学 习 和 消极 学 习 之 间 
的 差异 意味 蔷 对 目标 函数 的 全 局 晕 近 和 局 部 遂 近 的 差异 。 

使 用 多 个 局 部 有 逼近 的 积极 方法 ,可 以 产生 与 消极 方法 的 局 部 逼近 局 样 的 效果 吗 ? 径 向 基 
函数 网 络 可 以 被 看 作 是 对 这 个 目标 的 尝试 。RBF 学 习 方 法 是 在 训练 时 提交 目标 函数 全 启 表 
近 的 积极 方法 。 然 而 ,一 个 RBF 网 络 把 这 个 全 局 函数 表示 为 多 个 局 部 核 函 数 的 线性 组 合 。 不 
过 ,因为 RBF 学 习 方 法 必须 在 知道 查询 点 之 前 提交 银 设 ,所 以 它们 创建 的 局 部 逼近 不 能 达到 
像 消极 学 习 方 法 中 那样 特别 针对 查询 点 。 然 面 ,RBF 网 络 是 从 以 训练 样 例 为 中 心 的 局 部 到 近 
中 被 “积极 "建立 的 ,或 者 说 是 以 训练 样 例 的 聚 类 为 中 心 ,不 是 以 未 知 的 未 来 坦 询 点 为 中 
itis 

MMS, RAK A a PR See RR E r AARE 
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闻 的 单一 假设 。 当 然 ,积极 的 方法 可 以 使 用 合并 了 多 个 局 部 通 近 的 假设 空间 ,就 像 RBF 网 络 
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一 样 。 然 而 ,即使 是 这 些 合并 的 局 部 逼近 ,也 个 能 使 积极 方法 完全 具有 消极 方法 那 种 针对 未 知 
查询 作出 假设 的 能 力 。 


8.7 小 结 和 补充 读物 


本 章 的 要 点 包括 : 
s 基于 实例 的 学 习 方法 不 同 于 其 他 的 沿 数 允 近 方法 ,因为 它们 推迟 处 理 训练 样 例 , 直 到 必 
须 分 类 一 个 新 查询 实例 时 才 进 行 。 因 此 ,它们 不 必 形 成 一 个 明确 的 假设 来 定义 整个 实 
例 空间 上 的 完整 目标 函数 。 相 反 ,它们 可 以 对 每 个 查询 实例 形成 一 个 不 同 的 莫 标 函数 
局 部 通 近 。 
9 基于 实例 的 方法 的 优点 包括 :通过 一 系列 不 太 复 杂 的 局 部 有 逼近 来 模拟 复杂 目标 函数 却 
不 会 损失 训练 样 例 中 列传 的 任何 信息 (因为 样 例 本 身 被 直接 地 存储 起 来 )。 主 要 的 实 不 
问题 包括 :分 类 新 实例 的 效率 (所 有 的 处 理 都 在 查询 期 进行 而 不 是 事先 准备 好 ) ;难以 选 
PARRA RAW ARH REE HRSA AS RWS RRR 
候 ); 无 关 特 征 对 距离 度量 的 负 作 用 。 
e -近邻 是 用 来 毅 近 实数 值 或 离散 值 自 标 淫 数 的 基于 实例 算法 , 它 假 定 实 例 对 应 于 n 维 
欧 氏 空间 中 的 点 。 一 个 新 查询 的 目标 晴 数 值 是 根据 个 与 其 最 近 的 训练 样 俩 的 值 估计 
得 到 的 。 
e 局 部 加 权 回 归 法 是 大 近邻 方法 的 推广 .在 这 种 方法 中 , 为 每 个 查询 实例 建立 一 个 明确 
Ap RR ABET. Bee AY oR eT eR .线性 函数 或 二 次 函数 
UREN A BEY Ba SN tH BY SE JB PBB LE Ae PRX 
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是 基于 实例 的 方法 (每 个 核 函 数 的 影响 是 被 局 部 化 的 ) 和 神经 网 络 方法 (在 训练 期 形成 
了 对 目标 函数 的 全 局 通 近 ,而 不 是 在 查询 期 形成 的 局 部 有 逼近 ) 的 混合 。 径 向 基 函 数 网 络 
已 被 成 功 地 应 用 到 很 多 课题 , 比如 视觉 场景 分 析 (interpreting visual scenes) , 其 中 假定 
室 间 局 部 的 影响 是 很 合理 的 。 
o 基于 案例 的 推理 也 是 一 种 基于 实例 的 学 习 方 法 ,但 这 种 方法 使 用 复杂 的 逻辑 描述 而 不 
是 欧 氏 空间 中 的 点 来 表示 实例 。 给 定 实例 的 符号 描述 ,人 们 已 经 提出 了 大量 的 方法 用 
于 把 训 绒 样 例 映射 成 新 实例 的 目标 鹃 数值 。 基 于 案 仿 的 推理 方法 已 经 应 用 到 很 多 实际 
问题 中 ,比如 ,模拟 法 律 推理 以 及 在 复杂 的 生产 和 运输 规划 问题 中 引导 搜索 。 
三 近邻 算法 是 机 峰 学 习 中 被 分 析 得 最 透彻 的 算法 之 一 ,部 分 原因 是 由 于 它 出 现 的 较 早 , 另 
外 也 由 于 它 的 简明 性 。Cover & Hart(1967) 提 出 了 早期 的 理论 结果 ,Duda & Hart(1973) 提 供 
了 一 个 很 好 的 概观 。Bishop(1995) 讨 论 了 大 -近邻 算法 以 及 它 与 概率 密度 估计 的 关系 。Atke- 
son et al.(1997) 对 局 部 加 权 回 归 方 法 给 出 了 一 个 非常 好 的 纵览 。Atkeson et al. (1997b) 调 查 
了 这 些 方法 在 机 器 人 控制 方面 的 应 用 。 

Bishop( 1995) 提 供 了 一 个 对 径 向 基 函 数 的 全 面 讨论 , 其 他 论述 由 Powell(1987) 和 Poggio & 
Girosi(1990) 给 出 。 本 书 的 第 6.12 小 节 讨 论 了 EM 算法 和 它 在 选择 混合 高 斯 均值 方面 的 应 用 。 

Kolodner(1993) 提 供 了 对 基于 案例 的 推理 的 一 般 介绍 。 册 下 文献 给 出 了 其 他 的 一 些 关 于 
近来 的 研究 成 果 的 纵览 和 汇集 ;Aamodt et al. (1994), Aha et al. (1991), Haton et al. (1995), 
Riesbeck & Schank{ 1989), Schank et al. (1994), Veloso and Aamodt(1995), Watson (1995), 
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Wess et al. (1994), 
习题 


8.j 为 公式 (8.7) 中 的 旧 标 函数 的 一 个 距离 加 权 局 部 线性 逼近 推导 梯度 下 降 法 则 。 

8.2 思考 以 下 为 解决 局 部 加 权 回 归 中 的 距离 度量 的 另 一 种 方法 。 如 下 建立 一 个 虚拟 的 训练 
样 例 集合 D ;对 于 原始 训练 数据 集合 D 中 的 每 一 个 训练 样 例 (x，/ (x)) ,在 D' 中 创建 
岂 一 定数 量 (可 能 是 分 数 ) 的 (x，/ (x)) 的 拷贝 ,其 中 拷贝 的 数量 是 K(d(z,，x))。 现 
在 训练 一 个 线性 通 近来 最 小 化 以 下 误差 准则 ;: 


Bie Aa) - f(x)? 


这 里 的 想法 是 ,对 靠近 查询 实例 的 训练 样 例 产生 较 多 的 拷贝 ,距离 远 的 拷贝 较 少 。 推 导 
出 这 个 误差 准则 的 梯度 下 降 法 则 。 把 这 个 法 则 表示 成 在 D 的 成 员 上 的 求 和 ,而 不 是 在 
D' 的 成 员 上 求 和 ,并 把 它 与 式 (8.6) 和 和 式 (8.7) 中 的 法 则 进行 比较 。 

8.3 ”决策 树 学 习 算法 Ip3( 见 第 3 章 ) 是 积极 的 学 习 方 法 , 试 提出 这 种 算法 的 一 个 消极 版 本 。 
与 本 来 的 积极 算法 相 比 ,你 的 这 个 消极 算法 有 什么 优点 和 缺 后 ? 
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SIS 遗传 算法 


遗传 算法 是 一 种 大 致 基于 模拟 进化 的 学 习 方 法 ,其 中 的 假设 凋 被 描述 为 一 进 制 位 串 ,位 串 
的 含 闵 恢 藉 于 具体 的 应 用 。 然 而 ,假设 也 可 以 被 描述 为 符号 表达 式 甚 至 是 计算 机 程序 。 搜 索 
合适 的 假设 是 从 若干 初始 假设 的 群体 或 集合 开始 的 、 当 前 群体 的 成 员 通过 模仿 生物 进化 的 方 
式 来 产生 下 一 代 群 体 ,比如 说 随机 变异 (mutation} 和 交 及 (crossover)。 每 一 步 ,根据 给 定 的 通 
应 度 评估 当前 群体 中 的 假设 ,而 后 使 用 概率 方法 选 出 适应 度 最 高 的 假设 作为 产生 下 一 代 的 种 
子 。 址 传 算法 已 被 成 功 地 应 用 到 多 种 学 习 任 务 和 最 优化 问题 中 。 例 如 ,遗传 算法 已 被 用 于 学 
习 机 器 人 控制 的 规则 集 以 及 优化 人 工 神经 网 络 的 拓扑 结构 和 学 习 参 数 。 这 一 章 既 四 盖 了 用 位 
串 描 述 假 设 的 遗传 算法 (genetic algorithms) ,也 逆 盖 了 用 计算 机 程序 描述 假设 的 遗传 编程 (ge- 


netic programming) o 


9.1 动机 


遗传 算法 (4GA) 是 一 种 受 生 物 进 化 启发 的 学 习 方 法 。 它 不 再 是 从 一 般 到 特殊 或 从 简单 到 
复杂 地 搜索 假设 ,而 是 通过 变异 和 重组 当前 已 知 的 最 好 假设 来 生成 后 续 的 假 贫 。 每 一 步 ,里 新 
被 称 为 当前 群体 (population) 的 一 组 假设 ,方法 是 通过 使 用 目前 适应 度 最 高 的 假设 的 后 代替 代 
群体 的 某 个 部 分 。 这 个 过 程 形 成 了 假设 的 生成 并 测试 (generate-and-test) 柱状 搜索 (beam- 
search) 其 中 若干 个 最 佳 当 前 假设 的 变 体 最 有 可 能 在 下 一 步 被 考虑 。GA 的 普及 和 发 展 得 益 
于 以 下 因素 : 

o 在 生物 系统 中 ,进化 被 认为 是 一 种 成 功 的 自 适应 方法 , 且 具 有 很 好 的 健壮 性 。 

es CA 搜索 的 假设 空间 中 ,假设 的 各 个 部 分 相互 作用 ,每 一 部 分 对 总 的 假设 适应 度 的 影响 

难以 建 模 。 

© 遗传 算法 易于 并 行 化 , 且 可 降低 由 于 使 用 超 强 计 算 机 硬件 所 带 来 的 晶 贵 费用 。 

这 一 章 描 述 了 遗传 算法 ,举例 演示 了 它 的 用 法 ,分 析 了 它 搜索 的 假设 空间 的 特性 。 本 章 也 
描述 了 它 的 一 个 变 体 , 称 为 遗传 编程 。 在 这 种 方法 中 ,整个 计算 机 程序 向 着 某 个 适应 度 准 则 进 
化 。 过 传 算 法 和 得 传 编程 是 进化 计算 (evelutionary computation ) 领域 中 的 了 两 种 普遍 方法 。 在 
本 章 的 最 后 一 节 我 们 将 接触 一 些 研 究 生物 进化 的 课题 ,包括 鲍德温 效应 (Baldwin effect), Ei 
述 了 个 体 的 学 习 能 力 与 整个 群体 进化 速度 之 间 的 相互 作用 。 


9.2 相传 算法 


CA 研究 的 问题 是 搜索 候选 假设 空间 并 确定 最 佳 的 假设 。 在 GA 中 ,“ 最 佳 假设 "被 定义 为 
是 俩 适应 度 (fitness) 最 优 的 假设 ,适应 度 是 为 当前 问题 预先 定义 的 数字 度量 。 例 如 ,如 果 学 习 
任务 是 在 给 定 一 个 未 知 函 数 的 输入 输出 训练 样 例 后 通 近 这 个 函数 ,那么 适应 度 癌 被 定义 为 假 
设 在 训练 数据 上 的 精度 。 如 果 任 务 是 学 习 下 国际 象棋 的 策略 ,那么 适应 度 可 被 定义 为 该 个 体 
在 当前 群体 中 与 其 他 个 体 对 弈 的 获胜 率 。 
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员 ,然后 从 当前 群体 中 用 概率 方法 选取 适应 度 最 高 的 个 体 产 生 新 一 代 群 体 。 在 这 些 被 选中 的 
个 体 中 ,一 部 分 保持 原样 地 进入 下 一 代 群 体 ,其 他 的 被 用 作 产 生 后 代 个 体 的 基础 ,其 中 应 用 像 
交叉 和 变异 这 样 的 遗传 方法 。 

表 9-1 描述 了 录 传 算法 原型 。 算 法 的 输入 包括 :用 来 排序 候选 根 设 的 适应 度 尊 数 ;定义 算 
法 终止 时 适应 度 的 阅 值 ;要 维持 的 群体 大 小 ;决定 如 何 产 生 后 继 群 体 的 参数 , 即 每 一 代 群 体 中 
被 潮 涩 的 比例 和 变异 率 。 


Rot BERARD 





GA( Fitness, Fitness threshold, p, t, m) 

Fines EMEA SRR AAR ASR 
Fitness _ threshold 4432 SEJE ASB AL 
5 :群体 中 包含 的 假设 数量 
r; 每 一 步 中 通过 交谈 取代 群体 成 员 的 比例 
m ERF 

@ 初始 化 群体 :PP 一 随机 产生 的 个 假设 

看 评 丑 : 对 于 P 中 的 每 一 个 ,计算 Fitnessi h) 

各 当 [ maxFitness(h ) J < Fitness _ threshold . ii: 


产生 新 的 一 代 Ps: 
1. 选择 ;用 概率 方法 选择 的 (1 - rp 个 成 员 加 入 Pys M PPR h BRER Pr h) A FEAA 
计算 : 
Fitnessi h) 
Pr(h,} = -一 
; Da). Fitness (h;) 


2, 变 叉 ;根据 上 面 给 出 的 P MA P PRERA p2 对 假设 。 对 于 每 对 假设 < hy, ho > MA 
交 及 算 子 产生 两 个 后 伐 。 把 所 有 的 后 代 如 入 Ps 
4. 变异 ;使 用 均匀 的 概率 从 Ps 中 选择 m% 的 成 员 。 对 于 选 出 的 每 个 成 员 ,在 它 的 表示 中 随机 选择 一 个 
ie id 
4, EH: P-P; 
5. 评估 :对 于 OP 中 的 每 个 上 计算 Fitness (4) 
eb 忆 中 返回 适应 座 最 高 的 假设 





注 ， 算 法 中 维持 一 个 包 合 p 个 假设 的 群体 。 在 每 一 次 迁 代 中 ,后 怒 群 体 Ps 通过 根据 候 进 的 适应 度 用 概 李 方法 选择 个 
体 和 加 入 新 俱 设 形成 。 新 假设 通过 两 种 方法 得 到 :一 种 是 对 最 离 送 应 度 候 设 用 效 中 算 了 于 ;中 一 种 是 通过 创建 部 分 
假设 的 草 点 变 上 入 来 产生 新 一 代 。 重 俐 这 个 迁 民 过 程 ,直到 发 现 话 应 度 尽 赐 好 的 假设 。 商 型 的 交叉 和 变 骨 并 子 定 义 
在 后 面 的 表格 中 。 


在 这 个 算法 的 每 一 次 选 代 中 ,基于 当前 的 群体 产生 新 一 代 假设 。 首先 ,从 当前 的 群体 中 选 

择 一 定数 量 的 假设 包含 在 下 一 代 中 。 这 些 假设 是 用 概率 方法 选择 的 ,其 中 选择 假设 h 的 概率 
是 通过 下 式 计算 的 : 

Fitness( h:) 


< 一 一 一 一 一 一 (9.1) 
Du, Fitness ( hj) 


Pr h;) = 
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因此 ,一 个 假设 被 选择 的 概率 与 它 目 己 的 和 这 应 度 成 正比 ,与 当前 群体 中 其 他 竞争 假设 的 适 
应 度 成 反比 。 

在 当前 这 一 代 的 成 员 已 被 选 人 下 一 代 群 体 后 ,使 用 一 种 交叉 操作 产生 其 他 的 成 员 。 交 久 
操作 将 在 下 一 节 被 具体 定义 , 它 从 当前 代 中 取 两 个 双亲 假设 ,并 通过 重新 组 合 双 亲 的 各 部 分 产 
生 两 个 后 代 假 设 。 双 亲 假 设 是 从 当前 群体 中 按 概率 选 出 的 ,也 使 用 公式 (9.1) 的 概率 函数 。 在 
通过 这 种 交叉 操作 产生 新 的 成 员 后 ,新 一 代 群 体 已 经 包含 了 所 需 数量 的 成 员 , 接 下 米 , 从 这 些 
成 员 中 藉 机 选 出 一 定 比例 m 的 成 员 并 进行 随机 变异 。 

因此 ,这 种 GA 算法 执行 一 种 薄 机 的 .并行 柱状 的 搜索 ,根据 适应 度 函 数 发 现 好 的 假设 。 
下 面 的 小 节 将 更 详尽 地 描述 这 个 算法 中 使 用 的 假设 表示 和 遗传 算 子 。 


9.2.1 表示 假设 


GA 中 假设 经 常 被 表示 为 二 进 制 位 串 , 这 便于 用 变异 和 交叉 遗传 算 子 来 操作 。 用 这 样 的 
位 昨 表 示 的 假设 可 能 非常 复杂 。 例 如 ,于 then 规则 就 可 以 很 容易 地 用 这 种 方式 表示 ,做 法 是 选 
择 规 则 的 一 种 编码 ,其 中 为 每 个 规则 的 前 件 和 后 件 分 配 特定 的 子 串 。Holland{ 1986) , Grefen- 
stette( 1988) , DeJong et al. (1993) 中 描述 了 GA 系统 中 这 种 规则 表示 的 例子 。 

为 了 说 明 如 何 把 if-then 规则 编码 成 位 串 , 首 先 考虑 人 怎样 使 用 位 捉 描 述 单个 属性 的 值 约 
来 。 和 例如 考虑 属性 Outlook , 它 的 值 可 以 取 以 下 3 个 值 中 的 任 一 个 : Sunny ~ Overcast 或 Rain, 
表示 Outlook 约束 的 一 个 明显 的 方法 是 ,使 用 一 个 长 庆 为 3 的 位 串 ,每 位 对 应 一 个 可 能 值 。 若 
某 位 为 1 ,表示 这 个 属性 可 以 取 对 应 的 值 。 鲍 如 , 捉 010 表示 Outlook 必须 取 第 二 个 值 的 约束 ， 
MH Outlook = Overcast. GILAD, B 011 表示 更 一 般 的 约束 , Outlook 可 以 取 两 个 可 能 
值 ,或 者 说 ( Outlook = Overcast V Rain); 注意 ,111 表示 最 一 般 的 约束 ,表明 我 们 不 管 这 个 
属性 取 哪 个 值 。 

有 了 表示 单个 属性 约束 的 方法 ,那么 对 多 个 属性 约束 的 合 取 可 以 很 答 易 地 表示 为 对 应 位 
SHER, HO, SRI TRE Wind, 它 可 以 取 两 个 值 Strong 或 Weak。 那 么 像 下 面 的 规 
则 前 件 : 

( Outlook = Overcast V Rain) A (Wind = Strong) 

A] RAR AREA 5 eS 

Outlook Wind 
O11 10 

规则 的 后 件 ( 例 如 , PlayTennis = yes IUPUI AR Ra. TE, ETAM ATL 
通过 把 描述 规则 前 件 和 后 件 的 位 串 连接 起 来 。 例 如 下 面 的 规则 : 

IF Wind = Strong THEN Playfennis = yes 

将 被 表示 为 以 下 的 位 串 : 

Outlook Wind Play Tennis 
iti 10 19 

其 中 ,前 三 位 描述 了 对 Outlook 的 “不 关心 "约束 , 接 下 来 两 位 描述 了 对 Wind 的 约束 ,最 
后 两 位 描述 了 规则 的 后 件 (这 里 假定 PlayTennis 可 以 取 两 个 值 Yes 或 No)。 福 意 ,表示 规则 的 
位 捍 对 假设 空间 中 的 每 个 属性 有 一 个 子 串 ,即使 该 属性 不 被 规则 的 前 件 所 约束 。 这 样 得 到 了 
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一 个 问 定 长 度 的 规则 位 串 表 示 ,其 中 特定 位 置 的 子 串 描述 对 特定 属性 的 约束 。 有 了 单个 规则 
的 表示 方法 ,我们 可 以 简单 地 把 单个 规则 的 位 串 表示 连接 起 来 表示 规则 集 。 
在 为 某 个 假设 空间 设计 位 串 编码 时 ,有 必要 让 每 个 句法 合法 的 位 哩 表示 一 _ 个 有 意义 的 候 
设 。 比 如 , 若 使 用 上 一 段 的 规则 编 玛 方式 ,那么 位 串 111 10 11 表示 了 一 个 规则 , 它 的 后 件 不 约 
束 目 标 属性 Piey7ennz 。 如 果 要 避免 考虑 这 个 假设 ,可 以 采用 不 同 的 编码 方式 (例如 , 仅 分 配 
一 个 位 给 后 件 PlayTennis ,表示 它 的 值 是 Yes 或 No) ,或 改变 遗传 算 子 以 明确 避免 建立 这 样 的 
位 捉 , 或 干脆 把 很 低 的 适应 度 赋 给 这 样 的 串 。 
在 一 些 GA 中 ,假设 是 用 符号 描述 来 表示 的 ,而 不 是 用 位 串 。 例 如 ,在 第 9.5 节 中 ,我 们 讨 
论 了 一 个 把 假设 编码 为 计算 机 程序 的 遗传 算法 。 


9.2.2 WEET 


在 GA 中 通过 一 系列 算 子 (operator) 来 决定 后 代 , 算 子 对 当前 群体 中 选 定 的 成 员 进 行 重组 
和 变异 。 表 9-1 中 列 出 了 用 来 操作 位 申 的 典型 CA 算 子 。 这 些 算 子 是 生物 进化 中 的 过 传 过 程 
的 理想 化 形式 。 最 常见 的 两 个 算 子 是 X X (crossover) #4] $ # (mutation), 

交 灵 算 子 从 两 个 双亲 串 中 通过 复制 选 定位 产生 两 个 新 的 后 代 。 每 个 后 代 的 第 i 位 是 从 它 
的 某 个 双亲 的 第 i 位 复制 来 的 。 至 于 双亲 中 的 哪 一 个 在 第 i 位 起 作用 ,这 是 由 另外 一 个 称 为 
交叉 捷 码 Lerossover mask HARRER., TEAR TRAIR, FRE 9-2 中 最 上 边 的 单 
点 (single-point) 交 又 算 子 。 先 考虑 其 中 上 面 一 个 后 代 。 这 个 后 代 从 第 一 个 双亲 中 取 前 5 位 ， 
其 余 的 6 位 来 自 第 二 个 双亲 , 因为 交叉 掩 码 11111000000 为 每 个 位 指定 这 些 选 择 。 第 二 个 后 
代 使 用 同样 的 交叉 掩 码 , 但 交换 了 双亲 的 角色 。 所 以 , 它 包含 了 第 一 个 后 代 没 有 用 过 的 位 。 在 
单 点 交叉 中 , 交 丸 挤 码 总 是 这 样 组 成 的 , 它 以 连续 的 5 个 1 开始 ,后 面 跟随 必要 个 数 的 0 直译 
结束 。 这 样 的 结果 是 后 代 中 前 n 位 来 自 第 一 个 双亲 ,余下 的 位 来 自 第 二 个 双亲 。 每 次 应 用 单 
点 交叉 算 子 时 ,交叉 点 n 是 随机 选取 的 ,然后 再 产生 交叉 掩 码 并 应 用 。 

在 两 点 交叉 (two-point erossover) 中 ,后 代 的 产生 通过 把 一 个 双亲 串 的 中 间 片 段 替 换 第 二 
ASHE BAPE BE. MAH Ae RSL so 个 0 开始 ,后 面 跟随 nj 个 1, 再 眼 随 必要 数 
量 的 0 结束。 每 次 应 用 两 点 交叉 算 子 时 ,通过 随机 选取 两 个 整数 no 和 ml FPL. Bl 
如 ,在 表 9-2 显示 的 例子 中 ,是 使 用 no = 2 和 ni = 5 的 掩 码 来 产生 后 代 的 。 和 上 而 一 样 ,通过 
转换 两 个 双亲 的 角色 来 产生 这 两 个 后 代 。 

均匀 交叉 (uniform crossover) 合 并 了 从 两 个 双亲 以 均匀 概率 抽取 的 位 ,如 表 9-2 所 示 。 在 
这 种 情况 下 ,产生 一 个 随机 的 位 串 作 为 交 丸 掩 码 , 每 一 位 的 选取 都 是 随机 的 并 且 独 立 于 其 他 
位 。 

除了 通过 组 合 双亲 的 各 部 分 产生 后 代 的 重组 算 子 , 另 一 种 类 型 的 算 子 从 单一 的 双亲 产生 
后 代 。 确 切 地 讲 , 变 开 算 子 用 于 对 位 捉 产 生 随 机 的 小 变化 ,方法 是 选取 一 个 位 ,然后 取 反 。 变 
异 经 常 是 在 应 用 了 交叉 之 后 进行 的 , 像 表 9-1 中 的 原型 算法 那样 。 

一 些 GA 系统 应 用 了 其 他 的 算 子 ,特别 是 一 些 专门 针对 系统 中 特定 假设 表示 的 算 于 。 例 
如 , Grefenstette et al.(1991) 描 述 了 学 习 机 器 人 控制 规则 集 的 系统 。 它 除了 使 用 变异 和 交叉 算 
子 , 还 使 用 了 一 个 使 规则 特 化 的 算 子 。Janikow(1993) 描 述 了 学 习 规 则 集 的 系统 。 它 使 用 了 多 
种 直接 泛 化 和 特 化 规则 的 算 子 (例如 ,直接 把 一 个 属性 条 件 着 换 为 “不 次 心 )。 
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wise RMF Bit 
RR: 
41191001000 11101010101 


È 11141000000 : 
00001010101 00001001000 


Fae: 
11001011000 


11101001000 p 001111410000 d 
09001010101 00101000101 


HIE: 
10001000100 


11191091090 ` 10011010011 4 
00001010101 01101011001 


ES 11101001000 1101071000 


注 ; 这 些 算 于 形 感 用 位 素 表 示 的 恨 巡 后 牧 。 况 有 和 工 于 从 两 个 双亲 中 产生 两 个 后 代 , 合 用 变 及 掩 码 来 决定 哪 一 个 双亲 作 
用 于 押 应 的 位 。 变 异 从 单一 的 双 素 中 产生 单一 的 后 我 , 通 庄 随 酌 选取 一 位 并 取 反 。 


9.2.3 适应 订 函 数 和 假设 选择 


Te Ji BE PRE LT Ae Ta AE] ,并且 是 以 概率 方法 选择 下 一 代 群 体 的 准则 。 如 
果 任 务 是 学 习 分 类 的 规则 ,那么 适应 度 函 数 中 会 有 一 项 用 来 评价 每 个 规则 对 训练 样 例 集 合 的 
分 类 精度 。 送 应 度 旺 数 中 也 可 能 包含 其 他 的 准则 ,例如 ,规则 的 复 淋 度 和 一 般 性 ( generality)。 
一 般 讲 , 当 位 串 被 解释 为 复杂 的 过 程 时 (例如 , 当 位 串 表 示 一 系列 规则 ,这些 规 则 要 被 链接 在 一 
起 控制 一 个 机 器 人 设备 ) ,适应 度 函 数 可 以 测量 生成 的 过 程 总 体 性 能 , 而 不 是 单个 规则 的 性 
能 。 

在 表 9-1 中 最 示 的 GA 原型 中 ,选择 某 假 设 的 概率 是 通过 这 个 假设 的 适应 凑 与 当前 群体 
中 其 他 成 员 的 适应 并 的 比值 得 到 的 ,如 会 式 (9.1) 所 示 。 这 种 方法 有 时 锌 称 为 适应 度 比 例 选 择 
(fitness proportionate selection) RB OIE FE (roulette wheel selection)。 人 们 也 提出 了 
其 他 使 用 适应 度 来 选择 假设 的 方法 。 例 如 ,和 巍 标 赛 选 择 (tournament selection). EAM 4 BUH 
体 中 湖 机 选取 两 个 假设 ,再 按照 事先 定义 的 概率 p 选择 适应 度 较 高 的 假设 ,按照 概 罕 1 - p 选 
择 适 应 度 较 低 的 假设 。 锦 标 赛 选择 常常 比 适应 度 比 例 法 得 到 更 加 多 样 化 的 群体 (Goldberg and 
Deb 1991)。 在 另 一 种 被 称 为 排序 选择 (rank selection) 的 方法 中 , 当前 群体 中 的 假设 先 按 适应 
RHEE , 某 假 设 的 概率 与 这 个 假设 在 菲 序列 表 中 的 位 置 成 比例 , 而 不 是 与 它 的 适应 度 成 比例 。 


白 “ 轮 盘 赂 是 指 一 种 赌博 者 打赌 转 盘 寺 旋转 的 小 球 将 信 止 于 盘 上 青 一 个 术 内 的 游戏 ,这 里 的 含义 是 概率 大 的 假设 品 据 
ERK AAREPHRMERX, 
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9.3 举例 


EEO] A PE Ie, EHR TBA A ae OT 2 H, HR I BE 
隐 数 查找 表现 最 好 的 对 和 象 。 尽 管 不 保证 发 瑰 最 优 的 对 象 ,但 GA 经 常 成 功 地 发 现 具有 和 较 高 适 
应 度 的 对 象 。GA 已 经 被 应 用 到 机 器 学 习 以 外 的 大 量 最 优化 问题 , 像 电 路 布线 和 任务 调度 。 
在 机器 学 习 领 域 ,GA 不 仅 被 应 用 到 是 数 通 近 问 题 ,还 应 用 伸 像 选取 人 工 宰 经 网 络 的 拓扑 纺 构 
这 样 的 任务 。 

为 了 说 明 GA 在 概念 学 习 方 面 的 应 用 ,我 们 简要 概述 一 下 DeJong et al. (1993) HK GABIL 
系统 。GABIL 使 用 GA 来 学 习 以 命 题 规则 的 析 取 集合 表示 的 布尔 概念 。 在 对 几 个 概念 学 习 
问题 的 实验 中 发 现 ,在 泛 化 精度 方面 GABIL 与 菇 他 的 学 习 算 法 大 体 相当 ,这 里 的 其 他 算法 包 
FRR DBE C4.5 和 规则 学 习 系统 AQ14。 这 个 研究 中 的 学 习 任 务 婚 有 人 为 设计 的 用 
来 研究 系统 泛 化 精度 的 学 习 尾 务 ,又 有 乳腺 癌 诊 断 这 样 的 现实 问题 。 

GABIL 使 用 的 算法 就 是 表 9-1 中 描述 的 算法 。 在 DeJong et al.(1993) 的 实验 报告 中 , 决 
定 了 父 代 中 被 交 义 替换 的 比例 的 参数 rz 被 设置 为 0.06, 决 定 变异 率 的 参数 m 被 设置 为 0.001。 
这 是 这 些 参 数 的 典型 设置 。 群 体 大 小 p 从 100 到 1000 不 等 , 视 特定 学 习 任 务 而 定 。 

GA 在 GABIL 中 的 具体 应 用 可 以 被 概括 为 以 下 儿 点 : 

和 表示 ”在 GABIL 中 每 个 假设 对 应 于 一 个 命题 规则 的 析 取 集 , 并 按照 9.2.1 节 描 述 的 方 
法 编码 。 确 切 地 讲 , 规 则 前 件 的 假设 空间 由 对 一 个 固定 的 属性 集 的 约束 的 合 取 组 成 ,就 像 前 面 
描述 的 那样 。 为 了 表示 规则 集 ,单个 规则 的 位 串 表 示 被 连接 起 来 。 例 如 ,考虑 这 样 一 个 恨 设 至 
间 ,其 中 规则 的 前 件 是 对 两 个 布尔 属性 al 和 a2 的 约 东 的 合 取 。 规 则 的 后 件 是 用 单个 的 位 描 
述 的 ,表示 目标 属性 e 的 预测 值 。 于 是 ,由 两 个 规则 组 成 的 假设 如 下 : 

IF @a,= TAa=F THEN c = T; IF a= T THEN ec = F 

HERE Ran A 

aj iy € ay a4 € 
10 0l 1 11 10 0 

注意 ,位 串 的 长 度 陷 着 假设 中 规则 的 数量 增长 。 由 于 位 串 长 度 的 可 变性 ,需要 对 交叉 算 子 
作 少许 收 改 ,这 将 在 下 面 描述 。 

o 遗传 算 子 GABIL 使 用 表 9-2 中 的 标准 变异 算 子 ,随机 选取 一 个 位 ,并 用 它 的 反 码 蔡 代 
这 一 位 。GABIL 使 用 的 交叉 算 子 是 表 9-2 描述 的 两 点 交叉 算 子 的 一 个 相当 标准 的 扩展 。 确 
切 地 讲 , 为 了 适应 编码 规则 集 的 位 串 的 长 度 可 变性 ,并 且 限 制 系统 以 使 交叉 仅 发 生 在 位 串 的 相 
似 片 段 间 , 采 取 了 下 面 的 办 法 。 首 先 ,在 第 一 个 双亲 串 上 随机 选取 两 个 交叉 点 ,它们 之 则 划分 
出 了 一 个 位 串 片 段 。 击 于 位 串 表 示 的 是 一 个 规则 集 ,我 们 可 以 标记 出 其 中 每 个 规则 的 边界 。 
这 个 位 串 片段 可 能 跨越 若干 个 规则 边界 。 然 后 , 令 d 表示 片段 的 最 左 一 位 到 它 左 侧 第 一 个 
HUN AREER. d 罕 示 片段 的 最 右 一 位 到 它 左 侧 第 一 个 规则 边界 的 有 距离 。 接 下 来 ,在 第 二 
个 双亲 上 随机 选取 交叉 点 ,要 求 选择 的 交叉 点 具有 同样 的 d; 和 d: 值 。 例 如 ,如 果 两 个 双亲 
串 是 : 

iy iy E it] il; E 


hj: 10 01 1 Ii 10 0 
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和 
ad} aa C di as € 
Ao: 01 11 0 10 01 0 
并 刀 为 第 一 个 双亲 选取 交叉 点 位 置 是 第 1 和 第 8 位 ,如 下 所 示 : 
| aa C a| d+ c 
Ay; i110 Ol 1 11 1}0 0 


AB PR RARER BS! di = 1 并且 dis 3。 所 以 ,允许 选取 的 第 二 个 双亲 交叉 
ARMEA, 32 、1, BAG, 82。 如 果 恰 巧 选取 了 41,3): 
it] ibt H ay hs E 


ha: Of1 1/10 10 Ol 0 
那么 结果 生成 的 两 个 后 代 是 ， 


hz: 11 10 0 

和 

tt] a E ti i E d] ifs C 
ha: OO O1 1 li Il 0 io 0 0 

TO BGS ZEEE TA] EH a I, AN RE SFR aA 
式 产 生 的 位 申 表 示 良 定义 的 (well-defined) 规 则 集 。 

eC ARDR ”每 个 规则 集 的 适应 度 是 根据 它 在 训练 数据 上 的 分 类 精度 计算 的 .确切 地 
Ht, BEBE iy BE AY pa Ae 

Fitnes h) = (correct(h))* 

FH, correct (上 ) 是 假设 分 类 所 有 训练 样 例 的 正确 率 。 

在 比较 GABIL AHR C4.5 和 ID5R 这 样 的 决策 树 学 习 芷 法 世 及 规则 学 习 算 法 AQ14 的 实 
验 中 ,根据 对 不 同学 习 任务 的 测试 ,DeJong et al. (1993) 报 告 了 这 些 系统 具有 大 体 相当 的 性 能 。 
例如 ,对 人 为 设计 的 12 个 问题 ,GABIL 达到 了 92.1 免 的 平均 汉化 精度 ,而 其 他 系统 的 性 能 在 
91.2% ~ 96.6% Z/Fl. 


扩展 


DeJong et al.(1993) 中 也 探索 了 对 GABIL 基本 设计 的 两 个 有 趣 的 扩展 。 在 一 组 实验 中 ， 
他 们 研究 了 另外 两 个 新 的 遗传 算 子 ,这 两 个 算 子 受到 了 很 多 符号 学 习 方法 中 靛 见 的 沁 化 算 子 
的 启发 。 第 一 个 算 子 为 4AddAilternative , 它 沁 化 对 某 个 特定 属性 的 约束 ,方法 是 把 这 个 属性 对 
应 的 子 串 中 的 一 个 0 改 为 1。 例如 ,如 果 一 个 属性 的 约束 使 用 串 10010 表示 ,那么 这 个 算 子 可 
能 把 它 改 为 10110。 这 个 算 子 在 每 一 代 群 体 中 对 选 定 的 成 员 按照 0.01 的 概率 应 用 。 第 二 个 
算 子 为 DropCondition , 它 来 用 一 种 更 加 极端 的 汉化 措施 ,把 一 个 特定 属性 的 所 有 位 都 震 换 为 
1。 这 个 算 子 相当 于 通过 完全 撤销 属性 约束 来 汉化 规则 , 它 按照 概率 0.60 在 每 一 代 中 应 用 。 
DeJong et al.(1993) 中 报告 了 这 个 改进 的 系统 对 于 上 面 所 说 的 人 为 设计 任务 达到 了 95.2% 4 
平均 汉化 精度 ,而 基本 的 GA 为 2.1 锡 。 

在 上 而 的 实验 中 ,两 个 算 子 对 每 一 代 群 体 中 的 每 个 假设 是 以 同样 的 概率 应 用 的 。 在 男 一 
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个 实验 中 TB Ai ETT T Y R, OP Rae BT A A 
两 个 算 子 。 在 这 个 扩展 的 表示 中 ,一 个 典型 的 规则 集 假设 的 位 捉 为 : 

ad, @ € üi Œ ¢ AA DC 

0 11 O 10 Ol 0 l 0 

JO? Ra AiR Ee A Fe ARAR MH AddAlternative 算 子 ,而 不 可 以 应 

用 DropCondition 算 子 。 这 两 个 新 的 位 定义 了 部 分 的 GA 搜索 策略 ， 而 且 它 们 本 身 也 和 串 中 
的 其 他 位 一 起 被 同样 的 交叉 和 变异 算 子 修改 和 进化 。DejJong et al. (1993) 报 告 了 这 种 方法 的 
纺 果 优 劣 参半 (也 就 是 邓 某 些 问 题 提 高 了 性 能 ,对 其 他 问题 降低 了 性 能 ) , 它 描述 了 GA 在 原则 
上 是 如 何 使 搜索 假设 的 方法 进化 的 。 


9.4 假设 空间 搜索 


如 上 所 示 ,GA 采用 一 种 随机 化 的 柱状 搜索 来 寻找 最 大 适 应 上 度 的 假设 。 这 种 搜索 与 本 书 
中 已 考虑 的 其 他 学 习 方 法 的 搜索 完全 不 同 。 例 如 ,比较 GA 使 用 的 搜索 空间 和 神经 网 络 反 向 
传播 算法 使 用 的 搜索 空间 ;在 反 向 忧 播 算 法 中 ,梯度 下 降 搜索 从 一 个 假设 平滑 移动 到 一 个 非常 
相似 的 新 假设 。 与 此 不 同 ,GA 搜索 的 移动 可 能 非常 帘 然 ,使 用 和 双亲 根本 不 同 的 后 代替 换 双 
RRE. TER, CA 搜索 因此 不 太 可 能 像 梯度 下 降 方 法 那样 具有 陷入 局 部 最 小 值 的 问题 。 

在 一 些 GA 应 用 中 ,一 个 实 幅 上 的 难题 是 拥挤 (crowding) 和 问题 。 拥 挤 是 这 样 一 种 现象 , 群 
体 中 某 个 体 适 应 度 大 大 高 于 其 他 个 体 ,因此 它 还 速 签 殖 ,以 至 于 此 个 体 和 与 它 相似 的 个 体 占 据 
了 群体 的 绝 大 部 分 。 拥 挤 的 不 良 影响 是 降低 了 群体 的 多 样 性 (diversity) ,从 而 减 慢 了 GA 的 进 
一 步 进化 。 人 们 已 经 探索 了 若干 降低 拥挤 的 策略 。 第 一 种 方法 是 入 改选 择 函 煞 , 使 用 像 锁 标 
赛 选择 或 排序 选择 这 样 的 准则 取代 适应 度 比例 轮 盘 赌 选 择 。 第 二 种 方法 是 “适度 度 共 享 ” 
(fitness sharing) ,其 中 根据 群体 中 与 某 个 体 相 似 的 个 体 数 量 , 减 小 该 个 体 的 适应 度 。 第 三 种 方 
法 果 对 可 重组 生成 后 代 的 个 体 种 类 进行 限制 。 例 如 ,通过 只 允许 最 相似 的 个 体重 组 ,可 以 在 群 
体 中 促成 相似 的 个 体 聚 类 ,或 多 个 亚 种 (subspecies)。 一 种 相关 的 方法 是 按 空间 分 布 个 体 , 并 
且 仅 允许 相 邻 的 个 体重 组 。 这 些 技 术 很 多 都 受到 了 生物 进化 的 启示 。 


群体 进化 和 模式 理论 


不 妨 思 考 一 个 有 趣 的 问题 :是 否 能 用 数学 的 方法 刻画 GA 中 群体 随时 间 进 化 的 过 程 ? 
Holland(1975) 的 模式 原理 {schema theorem) 提 供 了 一 种 刻画 方法 。 它 基于 描述 位 串 集 合 的 衬 
A (schema 或 pattern)。 精 确 地 讲 ,一 个 模式 是 由 若干 0.1 A+ BERR. We “表示 一 个 
不 关心 的 位 。 例 如 模式 0* 10 表示 的 位 审 集合 中 只 包 售 0010 和 0110。 

单个 位 串 可 以 被 看 作 与 它 王 配 的 每 个 模式 的 代表 。 例 如 ,位 串 0010 可 以 被 认为 是 个 
相 异 模式 的 代表 ,例如 00 x 0% 10, % x * # 等 。 类 似 地 ,一 个 位 申 的 群体 可 以 被 看 作 是 位 
串 所 代表 的 模式 的 集合 以 及 与 每 个 模式 关联 的 个 体 数 量 。 

模式 理论 根据 每 个 模式 的 实例 数量 来 刻画 GA 中 群体 的 进化 。 令 m(s, +) 表示 群体 中 的 
模式 s 在 时 间 纪 也 就 是 在 第 上代 期 间 ) 的 实例 数量 。 模 式 理 论 根据 mis, OARA HER 
CA 参数 的 其 他 属性 来 描述 mls, t+ DORRA., 

CA 中 群体 的 进化 依赖 于 几 个 步骤 , 即 选 树 步 、 重 组 步 和 变异 步 。 先 从 只 考虑 选择 步 的 影响 
开始 。 使 用 (ARARA h 的 适应 度 , 并 用 SORRERA t 群体 中 所 有 个 体 的 平均 适 
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应 度 。 设 n 为 群体 中 个 体 的 总 数量 。 使 用 h EN p 表示 个 体 h ARRA s 的 一 个 代表 ,又 是 
时 间 + 群体 的 一 个 成 员 。 最 后 , 令 uls, RAR TERT TS] i 群体 中 模式 * 的 实例 的 平均 适应 度 。 
我 们 感 兴 趣 的 是 ms, 6+ 的 期 望 但 ,用 Elms, :+ 1)] 玉 表示 。 可 以 使 用 公式 (9.1) 
中 给 出 的 概率 分 布 来 计算 El mis, ¢+1)] ,并 使 用 目前 的 符号 把 它 重新 表示 成 如 下 形式 ， 
f(r) 
D7 fh) 


_ flr) 
nf(t) 
现在 如 果 根 据 这 个 概率 分 布 选择 新 群体 的 一 个 成 员 ,那么 选 到 模式 s 的 一 个 代表 的 概率 


Pri h} = 


Je: 
Pr(h E s)= >, ge). 
AEs p, nf Ct) 
_ u(s.t) e, 
Ter (s,t) (9,2) 
上 面 的 第 二 步 根据 以 下 的 定 习 得 到 : 
Zren H) 


u(s,t) = mis, i) 


公式 (9.2) 给 出 了 GA 选择 的 一 个 假设 是 模式 s 的 实例 的 概率 。 所 以 ,对 于 产生 整个 新 一 
代 的 = 次 独立 选择 步 ,得 到 的 s 的 实例 的 期 望 数量 就 是 这 个 概率 的 n A 


El mls, t+1)] = Beet) ms, t) (9,3) 


公式 (9.3) 表 明 , 在 te LEP BE s 的 实例 期 望 数 量 与 这 个 模式 的 实例 在 时 间 : 内 的 平 
均 适 应 度 &(s，t) 成 正比 ,并 与 时 间 上 中 群体 的 所 有 成 员 的 平均 适应 度 f(t) 成 反比 。 因 此 ,我 
们 可 以 期 望 ,在 后 继 的 各 代 中 高 于 平均 适应 度 的 模式 出 现 频率 会 升 病 。 如 果 把 GA 看 作 在 对 
个 体 空间 进行 显 式 搜索 的 同时 ,对 可 能 模式 空间 进行 着 虚拟 的 并 行 搜索 ,那么 公式 (9.3) 指 出 
适应 度 高 的 模式 的 影响 力 会 随 着 时 间 增 加 。 
然而 上 面 的 分 析 仅 考虑 GA 中 选择 步 的 影响 ,所 以 也 应 该 考虑 交叉 和 变异 步 的 影响 。 模 
式 理论 仅 考虑 这 些 算 子 可 能 造成 的 负面 影响 (例如 ,独立 于 &(s, ,随机 变异 可 能 降低 s 的 代 
表 数 量 ) ,并 且 仅 考虑 单 点 交叉 的 情况 。 所 以 完整 的 模式 理论 给 出 了 模式 s 的 期 望 频率 的 下 
FO Pra: 
Elm(se + D] a mls (1 = pe PEI) O = pad (9.4) 
RE, p 是 对 任意 个 体 应 用 单 点 交叉 算 子 的 概率 , pn 是 对 任意 个 体 的 任意 位 使 用 变异 算 
子 进行 变异 的 概率 。o(s) 是 模式 s PAZERA O 和 1 是 确定 的 位 ,* 不 是 。d(s) 是 模式 
s 中 最 左边 的 确定 位 和 最 右边 的 确定 位 间 的 距离 。 最 后 , ! 是 在 群体 中 个 体位 申 长 度 。 注 意 ， 
公式 (9.4) 中 的 最 左 一 项 与 公式 (9.3) 是 一 样 的 ,这 一 项 描述 了 选择 步 的 影响 。 中 间 一 项 措 述 
了 单 点 交叉 算 子 的 影响 。 特 别 值得 注意 的 是 ,这 一 项 描述 了 代表 :的 任意 个 体 在 应 用 了 交叉 
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算 子 后 还 代表 * HRB. RAO Pe ;的 任意 个 体 在 应 用 了 变异 算 子 后 还 代表 
s 的 概率 。 单 点 交叉 和 变异 的 影响 随 着 模式 中 确定 位 的 数量 of s) 种 确定 位 间 的 距离 gdfs) 增 
长 。 因 此 ,模式 理论 可 以 被 粗 上 咯 地 解释 为 ;适应 度 越 高 的 模式 的 影响 力 越 大 ,尤其 是 包含 较 少 
数量 的 确定 位 (也 就 是 包含 大 量 的 * ) 的 模式 和 这 些 确定 位 在 位 串 中 彼此 靠近 的 模式 。 

对 GA 中 的 群体 进化 过 程 ,模式 理论 可 能 是 被 引用 得 最 多 的 刻画 方式 。 它 不 完备 的 一 面 
是 无 法 考虑 交叉 和 变异 的 (大 概 的 ) 正 面 影响 。 最 近 人 们 已 经 提出 了 很 密 新 的 理论 分 析 ,包括 
基于 马尔 可 夫 链 模型 { Markov chain model) 和 和 统计 力学 模型 (statistical mechanics models) 的 分 
析 ,可 以 参见 Whitley & Vose(1995) 和 Mitchell( 1996). 


9.5 遗传 编程 


遗传 编程 (genetic programming, GP) 是 进化 计算 的 一 种 形式 ,其 中 进化 群体 中 的 个 体 是 计 
算 机 程序 而 不 是 位 串 。Kozaf 1992) 描 述 了 基本 的 跟 传 编程 方法 并 有 目 给 出 了 很 多 简单 的 可 以 被 
GP 成 功 学 习 的 程序 。 


9.5.1 程序 表示 


GP 操作 的 程序 一 般 被 表示 为 程序 的 解析 (parse) 树 。 每 个 末 数 调用 被 表示 为 树 的 一 个 节 
点 ,函数 的 参数 通过 它 的 子 结 点 给 出 。 例 如 ,图 9-1 画 出 了 函数 sin( x ) + xz+y 的 树 表示 。 
为 了 应 用 遗传 编程 到 某 个 特定 的 领域 ,用 户 必须 定义 待考 虑 的 原子 函数 (primitive functions) 
(例如 ,sin、cos、 开 方 、+ 、- .指数 ) 以 及 端点 (terminals)( 例 如 , x.y 以 及 常数 )。 接 下 来 ,遗传 
编程 算法 使 用 进化 搜索 来 探索 这 些 使 用 原子 措 述 的 程序 的 巨大 空间 。 


所 有 程序 都 可 以 用 它们 的 解析 树 来 表示 
PF 9-1 遗传 编程 中 的 程序 树 表 示 


与 在 遗传 算法 中 一 样 , 原 型 的 遗传 编程 算法 维护 由 多 个 个 悼 (在 这 里 是 程序 树 ) 组 成 的 群 
体 。 在 每 一 步 迭 代 中 , 它 使 用 选择 .交叉 和 变异 产生 新 一 代 个 体 。 群 体 中 某 个 体 程 序 的 适应 度 
一 般 通 过 在 训练 数据 上 执行 这 个 程序 来 决定 。 交 又 操作 是 这 样 进行 的 :在 一 个 双亲 程 友 中 随 
机 选择 一 个 子 树 , 然 后 用 另 一 个 双亲 的 子 树 替 代 这 个 子 树 。 图 9-2 演示 了 一 个 典型 的 交叉 操作 。 

Koza(1992) 描 述 了 应 用 GP 到 多 个 任务 的 实验 。 在 他 的 实验 中 ,根据 适应 度 概率 选择 当 
前 群体 的 10 钨 不 加 改变 的 保留 到 下 一 代 。 再 根据 适应 度 概 率 从 当前 群体 中 选择 程序 对 ,应 用 
交叉 操作 产生 新 一 代 的 其 余部 分 。 在 这 个 实验 系列 中 没有 使 用 变异 算 子 。 
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双亲 程序 树 显示 在 上 方 THETH, SLA LASTS RMR, REAR ERER AA 
根 的 子 树 互 换 以 产生 孩子 树 


PA 9-2 对 两 个 双亲 程序 树 进 行 交 叉 操 必 


9.5.2 举例 


Koza( 1992) 给 出 了 一 个 示例 ,这 个 示例 要 求学 习 堆 砌 图 9-3 所 示 的 字 块 的 算法 。 这 个 任 
务 是 开发 一 个 通用 的 算法 来 把 宇 块 堆 释 成 单个 栈 (stack) , 拼 出 单词 “universal ,无 论 这 些 子 块 
初始 的 结构 如 何 。 可 执行 的 动作 是 每 次 只 允许 移动 一 个 字 块 。 确 切 地 讲 , 在 栈 中 最 上 面 的 字 
块 可 以 被 移 到 桌面 上 ,或 者 桌面 上 的 字 块 可 以 被 移动 到 酰 英 。 





遗传 编程 的 任务 是 发 现 一 个 程序 ,可 以 把 有 任意 初 始 结构 的 字 块 变换 成 一 个 栈 托 出 Hij universal", HH T 
166 Pea E RAET RE (RA Koza 1992) 
图 o-3 字 块 堆 合 问题 


在 大 多 数 GP 应 用 中 , 间 题 表示 方法 的 选择 对 于 顺利 地 解决 问题 起 着 非常 重要 的 作用 。 
在 Koza 的 设计 中 ,用 以 组 成 程序 的 原子 函数 包含 下 面 的 三 个 端点 参数 : 

© CS(current stack): 当前 栈 , 指 栈 顶 宇 块 的 名 字 , 在 没有 当前 栈 时 为 F。 

@ TB(top correct block) ;最 顶 的 正确 字 块 , 指 该 字 块 和 它 以 下 的 字 块 均 为 正确 顺序 的 字 块 。 

e NN(next neceasary) ;下 一 个 所 需 字 块 , 指 为 了 拼 成 单词 "wniversal” , 栈 内 紧邻 TB 之 上 
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的 所 需 字 块 的 名 字 , 当 不 再 需要 字 抉 时 为 F. 

可 以 看 出 ,选择 这 样 的 端点 参数 对 于 描述 此 任务 的 字 块 操纵 程序 提供 了 一 种 自然 的 表示 。 
相反 ,设想 如 果 把 每 个 字 块 的 x 、y 坐标 定义 为 端点 参数 ,那么 要 实现 这 个 任务 相对 要 全 难得 
# 

除了 这 些 端 点 参数 ,这 个 应 用 中 的 程序 语言 还 包括 下 面 的 原子 函数 ， 

a (MS x (move to stack): EJP, METH « 在 桌面 上 ,这 个 操作 把 x BHR 

FAEN T; SR , 它 什 么 也 不 做 并 且 返 回 Fo 
è (MT x)(move to table) :移动 到 桌面 。 如 果 字 块 x 是 在 栈 中 某 个 位 置 ,这 个 操作 把 栈 
项 的 宇 块 移动 到 桌面 并 且 返 回 了 ; 否则 返回 下 。 

® (EQ x y)(equal) ;相等 ,如 果 x 等 于 y 返 回 了 ;否则 返回 下。 

è (NOT x): 如 果 x= FRET, WR x = TRE. 

@ (DU x y)(do until):; 反 复 执行 表达 式 x BEAM y 返回 了 。 

为 了 评估 任意 给 定 程 序 的 适应 度 , Koza 提供 了 166 个 训练 问题 ,表示 了 很 多 种 不 同 的 初 
始 字 顽 结构 ,问题 的 难度 各 蜡 。 任 意 给 定 程序 的 适应 度 就 是 它 解 决 了 的 训练 问题 的 数量 。 群 
体 被 初始 化 为 300 个 随机 程序 的 集合 。 经 过 了 10 代 后 ,系统 发 现 了 下 面 的 程序 解决 了 所 有 
166 个 问题 。 

(EQ (DU (MT CS) (NOT CS)) (DU (MS NN) (NOT NN))) 

注意 ,这 个 程序 包含 了 两 个 DU( 也 就 是 "Do Until") 语 名 的 序列 。 第 一 个 DU HH 
把 当前 的 栈 顶 字 块 移动 到 桌面 直到 把 栈 移 空 。 第 二 个 “Do Until” 语 名 循环 地 把 下 一 个 所 需 字 
A iE oh BIRT, REREN EQ 表达 式 起 到 的 作用 是 提供 一 个 合法 的 名 法 来 排列 这 
两 个 “Do Until” 循环 。 

多 少 有 些 令 人 避 育 ,仅仅 经 过 了 几 代 ,这 个 GP 就 发 现 了 能 解决 所 有 166 个 训练 问题 的 程 
序 。 系 统 的 这 个 能 力 很 大 程度 上 依赖 于 提供 的 基本 参数 和 原子 泪 数 以 及 用 来 评 怖 适应 谋 的 训 
练 样 例 集合 。 


9.5.3 eRe 


正如 上 面 的 例子 所 演示 的 ,遗传 编程 把 四 传 算 法 扩展 到 对 完整 的 计算 机 程序 的 进化 。 尽 
管 它 必 须要 搜索 巨大 的 假设 空间 ,但 已 经 证 实在 相当 数量 的 应 用 中 遗传 编程 产生 了 令 人 着 迷 
的 结果 。0’ Reilly and Oppacher(1994) 比 较 了 GP 算法 和 其 他 捷 索 计算 机 程序 空间 的 算法 , 例 
如 ,爬山 法 (hi climbing) 和 模拟 退火 法 (simulated annealing) . 

当然 ,上 面 的 GP 算法 例子 是 相当 简单 的 , Koza et al. (1996) 概 括 了 GP 算法 在 一 些 更 复杂 
的 任务 中 的 应 用 。 例 如 ,设计 电子 滤波 电路 和 分 类 和 蛋白质 分 子 片 段 。 滤 波 电 有 路 设计 问题 提供 
了 一 个 相当 复杂 的 问题 。 这 里 ,程序 的 进化 是 从 简单 的 固定 种 子 电路 转变 为 最 终 的 电路 设计 。 
GP 算法 中 组 建 程序 的 原子 函数 得 过 插 人 或 删除 电路 零件 和 导线 连接 来 编辑 这 个 种 子 电 路 。 
每 个 程序 的 适应 度 是 这 样 计算 的 : 先 模拟 这 个 电路 的 输出 (使 用 SPICE 电路 仿真 器 ) ,然后 看 
这 个 电路 与 期 望 的 设计 的 适应 度 的 差 咏 。 精 确 地 讲 , 适 应 度 分 值 是 对 于 101 个 不 同 的 输入 频 
率 , 计 算 实际 电路 输出 和 期 望 电 路 输出 间 误 差 量 的 和 。 在 这 个 例子 中 ,维护 的 群体 大 小 是 
640 000 ,选择 产生 10 名 的 后 牧 群 体 ,交叉 产生 890% ,变异 产生 1 免 , 系 统 是 在 一 台 64 节点 的 并 
行 处 理 机 上 执行 的 。 在 最 初 的 随机 产生 的 群体 中 ,电路 是 如 此 的 不 合理 以 至 于 98 免 的 电路 行 
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为 无 法 被 SPICE 仿真 器 仿真 。 在 第 一 代 之 后 无 法 仿真 的 电路 的 百分比 下 降 到 84.9% ,第 二 代 
后 下 降 到 75.0% ,后 来 各 民 中 平均 下 降 到 9.6%。 在 初始 群体 中 ,电路 最 好 的 适应 度 分 值 是 
159。 与 此 相 比 ,20 代 后 分 值 是 39,137 代 后 分 值 是 0.8。137 代 后 的 最 佳 电 路 达到 的 性 能 与 
要 求 的 非常 相近 。 

在 大 多 数 情况 下 ,表示 方法 的 选择 和 适应 度 函 数 的 选择 对 遗传 编程 的 性 能 是 至 关 重 要 的 。 
由 于 这 个 原因 ,自前 研究 的 一 个 活 胰 领域 是 自动 发 更 和 合并 子 程序 ,改善 最 亡 的 原子 旺 数 集 
合 , 从 而 允许 系统 动态 地 改变 用 以 构建 个 体 的 原子 。 例 如 ,可 以 估 见 Kozaf 1994). 


9.6 进化 和 学 习 模 型 


在 很 多 自然 系统 中 ,生物 个 体 在 它们 一 生 当中 都 在 学 习 如 何 更 好 地 适应 环境 。 同 时 ,生物 
和 社会 过 程 允 许 它们 的 物种 在 一 个 包含 很 多 代 的 时 期 内 适应 环境 。 关 于 进化 系统 的 一 个 有 趣 
问题 是 :“ 单 一 个 体 生命 期 间 的 学 习 与 整个 物种 较 长 时 期 内 由 进化 促成 的 学 习 , 它 们 的 关系 是 
什么 ?”。 


9.6.1 拉 马 克 进 化 


科学 家 拉 马 克 (Lamarek) 在 19 世纪 末 提 出 ,多 代 的 进化 直接 受到 个 别 生 物体 在 它们 生命 
期 间 的 经 验 的 影响 。 确 切 地 讲 ,他 提出 个 别 生 物体 的 经 验 查 接 影响 其 后 代 的 遗传 结构 :如果 个 
体 在 生命 期 内 学 会 了 避 开 某 种 有 毒 食物 , 它 便 能 把 这 种 特征 遗传 给 它 的 后 代 。 这 是 一 个 很 吸 
引信 的 狂想 ,因为 比 起 忽略 个 体 经 验 的 “生成 并 测试 “generate-and-test) 过 程 ( 如 在 GA 和 GP 
中 ) , 它 可 能 获得 更 高 效 的 进化 过 程 。 尽 管 这 个 理论 很 有 琢 引 力 , 但 目前 的 科学 证 据 与 拉 马 克 
模型 彻底 冲突 。 有 目前 被 接受 的 观点 是 ,个 体 的 遗传 结构 事实 上 不 受 它 的 双亲 的 生存 经 验 的 影 
啊 。 尽 管 这 是 明显 的 生物 学 上 的 事实 ,但 近来 的 计算 机 研究 已 经 表明 , 拉 马 死 过 程 有 时 可 以 据 
高 计算 机 通 传 算法 的 效率 (参见 Grefenstette 1991, Ackley & Littman 1994, Hart & Belew 
1995)。 


9.6.2 鲍德温 效应 


尽管 拉 蕊 克 进 化 模型 没有 被 生物 进化 过 程 所 接受 ,人 们 已 经 提出 了 其 他 的 机 制 ,通过 这 些 
机 制 个 体 学 习 可 以 改变 进化 过 程 。 其 中 一 种 被 称 为 鲍德温 效应 (Baldwin effect) , ARE RIL 
提出 这 种 思想 的 J]，M. Baldwin(1896) 的 作者 和 名字 命名 的 。 鲍 德 温 效应 基于 以 下 现象 : 
e 如 果 一 个 物种 在 一 个 变化 的 环境 中 进化 ,那么 进化 的 压力 会 支持 有 学 习 能 力 的 个 体 。 
例如 ,如 果 在 进化 环境 中 出 现 了 一 个 新 的 捕食 者 ,那么 能 学 会 如 开 捕 食 者 的 个 体会 比 不 
能 学 会 此 能 力 的 个 体 更 成 功 。 在 效果 上 土 ,这 种 学 习 的 能 力 可 以 使 个 体 在 其 生命 期 间 执 
行 一 种 小 的 局 部 搜索 ,以 最 大 化 它 的 适应 度 。 相 反 ,不 学 习 的 个 体 的 适应 度 完 全 取 诀 于 
它 的 中 传 结 构 , 会 处 子 相 对 的 劣势 。 
o 那些 能 够 学 习 很 多 特性 (trait) 的 个 体 ,会 较 少 地 依赖 于 遗传 代码 来 硬性 地 规定 其 自身 
的 特性 。 结 果 , 这 些 个 体 可 以 依赖 个 体 学 习 克 服 遗 传代 码 中 的 “丢失 的 "或 "并非 最 优 
的 "特性 ,从 而 支持 更 加 多 样 化 的 基因 外 (gene pool)。 接 下 来 ,这 个 更 加 多 样 化 的 基因 
池 可 以 促进 适应 性 更 快速 地 进化 。 因 此 ,个 体 的 学 习 能 力 具 有 间接 加 速 整个 群体 进化 
适应 的 作用 。 
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例如 ,设想 某 个 物种 的 环境 中 发 生 了 新 变化 ,比如 出 现 一 个 新 的 捕食 者 。 这 样 的 变化 会 有 
利于 能 学 会 避 开 捕食 者 的 个 体 。 随 着 群体 中 自我 提高 的 个 体 的 比例 的 增长 ,群体 会 支持 更 加 
多 样 化 的 基因 池 ,允许 进化 过 程 ( 即 使 是 非 拉 马克 的 “生成 并 测试 “过程 ) 通 应 得 更 快 。 接 下 来 ， 
这 种 加 速 的 适应 可 以 使 标准 的 进化 过 程 更 快 地 进化 出 一 种 遗传 特征 ( 非 学 到 的 特征 ) 来 避 开 捕 
食 者 (例如 ,一 种 对 捕食 者 的 本 能 惧怕 )。 因 此 鲍德温 效应 提供 了 一 种 间接 的 机 制 ,使 个 体 的 学 
习 可 以 正面 影响 进化 速度 。 通 过 提高 物种 的 生存 力 和 遗传 多 样 性 ,个 体 学 习 会 加 快 进化 进程 ， 
从 而 增加 这 个 物种 进化 出 更 好 地 适应 新 环境 的 遗传 特性 的 机 会 。 

大 们 一 直 努 力 开发 研究 鲍德温 效应 的 计算 模型 。 例 如 , Hinton & Nowlan(1987) 对 一 个 简 
单 神经 网 络 的 群体 进行 试验 ,在 一 个 网 络 个 体 的 “生命 期 ” 间 , 它 的 一 些 权 值 是 固定 的 ,而 其 他 
的 权 是 可 以 被 训练 的 。 这 个 个 体 的 遗传 结构 决定 了 哪些 权 值 是 可 以 被 训练 的 ,那些 是 固定 的 . 
在 实验 中 , 当 不 允许 个 体 学 习 时 ,群体 不 能 随 着 实 噬 提 高 它 的 适应 度 。 然 而 , 当 允 许 个 体 学 习 
时 ,群体 迅速 地 提高 它 的 适应 度 。 在 群体 进化 初期 的 各 代 中 ,具有 很 多 可 训练 权 值 的 个 体 占据 
较 大 的 比例 。 但 随 着 进 北 的 进行 ,群体 向 着 遗传 给 定 权 值 和 较 少 依赖 个 体 学 习 权 值 的 方向 进 
ik FRO SER ARR TR. Belew (1990). Harvey( 1993} 和 French & Messinger 
{1994) 报 告 了 对 鲍德温 效应 的 其 他 计算 性 研究 。Mitcheli(1996) 给 出 关于 这 个 主题 的 精彩 综 
Rm. GHEY Evolutionary Computation ) 订 志 的 一 期 特刊 { Turney et al. 1997 4 T JL 
有 关 鲍 德 温 效 应 的 文章 。 


9.7 并 行 遗 传 算法 


GA 很 自然 地 适合 并 行 实现 ,而 且 已 经 探索 出 了 很 多 并 行 化 的 方法 。 粗 粒度 (ooarse grain) 
并 行 方法 把 群体 细 分 成 相对 独立 的 个 体 群 , 称 为 类 属 (deme)。 然 后 为 每 个 类 属 分 配 一 个 不 同 
的 计算 节点 ,在 每 个 节点 进行 标准 的 GA 搜索 。 类 属 之 间 的 通信 和 和 交 义 发 生 的 频率 与 类 属 内 
的 通信 和 和 交 豆 相 比 较 低 。 类 属 之 间 的 交换 通过 迁移 (migration) 来 进行 ,也 就 是 某 些 个 体 从 一 
个 类 属 复 制 或 交换 到 其 他 的 类 属 。 这 个 过 程 模 拟 了 以 下 的 生物 进化 方式 , 即 自然 界 中 异体 受 
精 可 能 发 生 在 分 离 的 物种 子 群 体 之 间 。 这 种 方法 的 一 个 好 处 是 它 减少 了 非 并 行 GA 经 常 碰 到 
的 拥挤 问题 ,在 非 并 行 算法 中 ,由 于 过 早出 现 支 配 整 个 群体 的 基因 型 ,使 系统 陷 人 局 部 最 优 。 
Tanese(1989) 和 Cohoon et al. (1987) 描 述 了 粗 粒 度 并 行 GA 算法 的 例子 。 

相对 子 粗 粒 朗 并 行 实现 , 细 粒 度 (fine-grained) 实 现 一 般 给 群体 中 的 每 个 个 体 分 配 一 个 处 
理 器 ,然后 相 邻 的 个 体 间 发 生 重 组 。 人 们 已 经 提出 了 几 个 相 邻 模型 ,从 平 而 网 格 到 超 环 结构 。 
Spiessens & Manderick( 1991) HAE T 这 样 的 系统 的 例子 。 Stender( 1993) 中 有 关于 并 行 CAR 
法 的 论文 集 。 


9.8 小结 和 补充 读物 
本 章 的 要 点 包括 : 


@ 遗传 算法 (GA) 进 行 一 种 随机 化 的 并 行 息 山 搜索 来 发 现 使 预先 定义 的 通 应 度 销 数 最 优 


的 假设 。 

o GA 所 采取 的 搜索 是 基于 对 生物 进化 的 模拟 。GA 维护 一 个 由 竞争 假设 组 成 的 多 样 化 
群体 。 在 每 一 次 选 代 中 , 选 出 群体 中 适应 度 最 高 的 成 员 来 产生 后 代 , 埠 代 群 体 中 适应 度 
最 差 的 成 员 。 假 设 常 被 编码 成 位 串 ,可 以 通过 交叉 算 子 组 合 ,位 串 上 也 可 能 发 生 随 机 变 
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异 。 

e GA 阐明 了 如 何 把 学 习 过 程 看 成 最 优化 过 程 的 一 个 特例 。 具 体 来 说 ,学 习 任 务 就 是 根据 
预先 定义 的 适应 度 函 数 发 现 最 优 的 假设 。 这 表明 其 他 的 最 优化 技术 ,例如 模 氢 退 火 法 ， 
也 可 以 应 用 到 机 器 学 习 问题 。 

人 SGA 已 经 被 普遍 应 用 到 机 更 学 习 外 的 最 优化 问题 中 ,例如 ,设计 优化 问题 。 当 把 GA 应 
用 到 学 习 任 务 时 , 它 特别 适合 假设 很 复杂 的 任务 (例如 ,假设 是 机 器 人 控制 的 规则 集 或 
计算 机 程序 } 和 最 优化 的 目标 是 假设 的 间接 函数 的 任务 (例如 ,要 求 得 到 的 规则 集 可 以 
成 功 地 控制 机 器 人 )。 

s 和 址 传 编程 是 遗传 算法 的 变 体 ,在 遗传 编程 中 ,被 操作 的 假设 是 计算 机 程序 而 不 是 位 串 。 
奖 叉 和 变异 操作 被 推广 以 应 用 于 程序 而 不 是 位 串 。 人 们 已 经 演示 了 遗传 编程 学 习 针 对 
某 些 任 务 的 程序 ,比如 模拟 机 棵 人 控制 (Koza 1992Y 和 识别 视觉 场景 (visual scenes) PAY 
tik (Teller and Veloso 1994), 

在 计算 机 科学 发 展 的 早期 ,人 们 就 开始 探索 基于 进化 的 计算 方法 (例如 ,Box 1957 和 Bled- 
soe 1961)。2 世纪 60 年 代 提 出 了 几 个 不 局 的 进化 方法 ,后 来 又 被 进一步 研究 。Rechenberg 
(1965,1973) 开 发 的 进化 策略 用 来 优化 工程 设计 中 的 数字 参数 ,Schwefel(1975,1977,1995) 和 
其 他 一 些 人 继续 研究 了 这 种 策略 。Folgel & Owens & Walsh( 1966) 开 发 了 进化 编程 ,作为 进 
化 有 限 状态 机 的 一 种 方法 。 大 量 的 研究 者 继续 探索 了 这 种 方法 (例如 ， Fogel & Atmar 1993), 
Holland(1962,1975) 提 出 的 遗传 算法 包含 了 维护 由 个 体 组 成 的 大 群体 的 概念 ,并 且 强 调 在 这 
样 的 系统 中 交叉 是 一 个 关键 的 操作 。Kozaf 1992) 介 绍 了 遗传 编程 ,把 遗传 算法 的 搜索 策略 应 
用 到 由 计算 机 程序 组 成 的 假设 中 。 随 着 计算 机 硬件 不 断 地 变 得 更 快 和 更 便宜 ,人们 对 进化 方 
法 的 兴趣 也 不 断 增 长 。 

K. DeJong 和 他 的 学 生 在 Pittsburgh 大 学 开发 了 (参见 Smith 1980) 使 用 GA 学 习 规 则 集 
的 方法 。 在 这 种 方法 中 ,每 个 规则 集 是 竞争 假设 组 成 的 群体 的 一 个 成 员 , 就 像 本 章 讨论 的 
GABIL 系统 中 的 一 样 。Holland 和 他 的 学 生 (Holiand 1986) 在 Michigan 大 学 开发 了 不 同 的 方 
法 ,其 中 每 个 规则 是 群体 的 一 个 成 员 , 而 群体 本 身 是 一 个 规划 集 。Wright 《1977) 从 生物 学 角 
度 分 析 了 变异 ,繁殖 、 交 丸 繁 殖 和 进化 选择 的 作用 。 

Mitchell (1996) 和 Goldberg (1989) 是 讨论 遗传 算法 的 两 本 教材 。Forrest (1993) 概括 
T CA 中 的 技术 问题 , Coldberg(1994) 概 括 了 最 近 的 几 个 应 用 。Koza(1992) 关 于 遗传 编程 的 
专著 是 对 遗传 算法 扩展 到 操作 计算 机 程序 的 标准 参考 书 。 发 表 新 成 果 的 主要 会 议 是 遗传 算法 
同 际 会 议 ( 了 GA)。 其 他 相关 的 会 议 包 括 自 适应 行为 仿真 会 议 (CSAB)、 人 工 神 经 网 络 和 遭 传 
算法 国际 会 议 (ICANNGA&) 以 及 IEEE 进化 计算 国际 会 议 (ICEC)。 上 日 前 也 有 遗传 编程 方面 的 
年 会 (Koza et al. 1996b)。《 进 化 计算 杂志 》( Evolutionary Computation Journal) 是 这 个 领域 最 
新 研究 成 果 的 一 个 来 源 。《 机 器 学 习 》( Machine Learning ) 林 志 的 一 些 特刊 也 是 针对 GA 的 。 


习题 
9.1 为 第 3 草 中 描述 的 PlayTennis 问题 设计 一 个 遗传 算法 ,学 习 合 取 的 分 类 规则 。 精 确 地 


描述 出 其 中 假设 的 位 串 编码 和 一 组 交叉 算 子 。 
9.2 实现 习题 9, 1 中 的 简单 GA。 用 不 同 的 群体 大 小 p 、 每 一 代 中 被 淘 羔 的 比例 > 和 变异 率 


m 进行 试验 。 
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9.3 把 GP 发 现 的 程序 (在 第 9.5.2 节 中 描述 ) 重 新 表示 为 树 。 将 树 的 两 个 拷贝 作为 两 个 双 
亲 ,在 其 上 应 用 GP 的 交 义 算 子 。 说 明 其 中 交叉 算 子 的 操作 过 程 。 

9.4 FEE GA 应 用 到 为 人 工 神经 网 络 (特别 是 与 反 向 传播 算法 训练 的 网 络 一 致 的 前 馈 网 
络 , 见 第 4 章 ) 寻 找 一 组 合适 的 权 值 。 考 虚 一 个 3x 2 x 1 的 分 展 前 馈 网 络 。 描 述 一 种 把 
网 络 权 值 编 码 成 位 串 的 方法 并 描述 一 套 适当 的 交 义 算 子 。 提 示 ; 不 要 在 位 操 土 允许 所 有 
可 能 的 交叉 操作 。 指 出 在 训练 网 络 权 值 方面 ,使 用 GA 与 反 回 传播 算法 相 比 的 一 个 优点 
和 一 个 缺点 。 
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第 10 章 “ 学 习 规 则 集合 


对 学 习 到 的 假设 ,最 具有 表征 力 的 和 最 能 为 人 类 所 理解 的 表示 方法 之 一 为 if-then 规则 的 
集合。 本 童 探索 了 者 干 能 学 习 这 样 的 规则 集合 的 算法 。 其 中 最 重要 的 一 种 是 学 习 包 含 变 量 的 
规则 集合 ,或 称 为 一 阶 Horn 子 句 集 合 。 由 于 一 阶 Horn 子 句 集合 可 被 解释 为 馆 辑 编程 语言 
PRoLoc 中 的 程序 ,学 习 的 过 程 经 常 被 称 为 归纳 好 辑 编程 (ILP)。 本 章 考察 了 多 种 学 习 规 则 集 
合 的 途径 ,其 中 一 种 途径 基于 机 器 定理 证 明 器 中 演绎 算 子 的 逆转 。 


10.1 简介 


在 许多 情况 下 ,有 必要 学 习 一 个 由 若干 让 then MMe LA Ae. OR 3 章 所 
示 , 学 习 规 则 集合 的 一 种 办 法 是 首先 学 习 决 策 树 ,然后 将 此 树 转换 为 一 等 效 的 规则 集合 。 男 一 
种 方法 是 在 第 9 章 介绍 的 过 传 算法 , 它 用 位 串 编码 每 个 规则 集合 ,然后 用 遗传 搜索 算 子 来 探索 
整个 假设 空间 。 本 章 我 们 讨论 一 组 不 何 的 算法 , 它 直 接 学 习 规 则 集合 ,这 组 算法 与 前 面 的 算法 
相 比 有 两 点 关键 的 不 闸 。 首 先 ,它们 可 学 习 包 含 变量 的 一 阶 规则 集合 ,这 一 点 很 重要 ,因为 一 
阶 子 句 的 表达 能 力 比 命题 规则 要 强 得 多 。 其 次 ,这 里 讨论 的 算法 使 用 序列 履 效 算法 ,一 次 学 习 
-一 个 规则 ,以 递增 的 方式 形成 最 终 的 规则 集合 。 

作为 一 阶 规 则 集合 的 例子 ,考虑 以 下 两 个 规则 ,它们 共同 描述 了 目标 概念 Ancestor. XE 
我 们 使 用 谓词 Perenifx ,y) 来 表示 是 x 的 父亲 或 母亲 ,而 谓词 Ancestor (x, y BEAN y FE x 
的 任意 代 的 祖先 。 

IF Parent ( x ry) THEN Ancestor ( x y) 

IF Parent(x,z)A Ancestor(z,y) THEN Ancestor( x,y) 

注意 ,以 上 两 个 规则 很 紧 焉 地 描述 了 一 个 递归 函数 , 它 很 难 用 决策 树 或 其 他 的 命题 的 方法 
来 表示 。 为 说 明 一 阶 规则 强大 的 表示 能 力 , 可 以 考虑 通用 的 编程 语言 PoLoc。 在 Prolog 中 ， 
程序 是 一 阶 规则 的 集合 ,如 上 所 示 ( 这 种 形式 的 规则 也 被 称 为 Horn 子 自 )。 实 际 上 ,如 果 稍 稍 
修改 上 面 两 个 规则 的 语法 ,就 可 以 得 到 一 个 合法 的 PRoLoc 程序 , 它 用 来 计算 Ancestor 关系 。 
因此 ,一 个 可 以 学 习 这 种 规则 集合 的 通用 算法 ,可 被 看 作 是 从 样 例 中 自动 推导 出 PRoroc 程序 
的 算法 。 本 章 介 绍 了 在 给 定 适 当 的 训练 样 例 集合 时 ,能 够 学 习 这 种 规则 的 学 习 算 法。 

实践 中 苦于 一 阶 表 示 的 学 习 系 统 已 成 功 地 应 用 于 各 种 问题 ,如 在 质谱 仪 中 学 习 哪 一 个 化 
学 药品 能 精 合 碎片 【Buchanan 1976, Lindsay 1980) ,学习 哪 一 个 化 学 亚 结构 会 产生 诸 导 有 机 
体 突 变 的 放射 性 物质 (一 个 关于 致 冶 物 质 的 属性 )(Srinivasan et al. 1994), 以 及 学 习 有 限 单元 
网 以 分 析 物 理 结构 中 的 应 力 (Dolaak & Muggleton 1992)。 在 每 个 应 用 中 ,假设 的 表示 必须 包 
含 关系 断言 , 它 可 由 一 阶 表 示 来 简单 地 表达 , 却 很 难 用 命题 表示 来 描述 。 

在 本 章 中 ,我 们 先 介绍 能 够 学 习 命 题 规则 集 的 算法 , 即 不 含 变 量 的 规则 。 在 这 种 框架 中 ， 
搜寻 假设 空间 学 习 析 取 规 则 集合 的 算法 较 易 理解 。 然 后 ,我 们 考虑 了 将 这 些 算法 扩展 到 一 阶 
规则 。 接 下 来 讨论 了 归 铅 逻辑 的 两 种 通用 途径 以 及 归纳 和 演绎 推理 的 基本 关系 。 
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10.2 FISAR 


这 里 考虑 的 一 组 算法 ,其 学 习 规 则 集 的 策略 为 :学 习 一 个 规则 BAC RRHRME FR 
这 一 过 程 。 这 样 的 算法 被 称 为 序列 检 盖 {sequential covering) 算 法 。 假 设 我 们 已 有 一 个 子 程序 
LEARN-ONE-RULE, 它 的 输入 为 一 组 正 例 和 上 反例 ,然后 输出 单个 规则 , 它 能 够 禾 兽 许多 正 例 市 村 
瘟 很 少 的 反例 。 我 们 要 求 这 一 输出 的 规则 有 较 离 的 精确 度 , 但 不 必 有 和 较 高 的 禾 盖 度 。 较 高 的 
精确 度 说 明 它 所 做 出 的 预测 应 为 正确 的 。 可 接受 较 低 的 覆盖 诬 ,表示 它 不 必 对 每 个 训练 样 例 
都 做 出 预测 。 

有 了 这 样 一 个 学 习 单 个 规则 的 LEARNONERULE 子 程序 ,要 学 习 规 则 集 ,一 个 明显 的 方法 
是 在 所 有 可 用 训练 样 例 上 执行 LEARN-ONE-RULE ,再 移 去 由 其 学 到 的 规则 覆盖 的 正 倒 , 然 后 在 剩 
余 的 训练 样 例 上 执行 ,学 习 第 二 个 规则 。 该 过 程 可 重复 若干 次 ,直到 最 后 学 习 到 析 取 规则 集 。 
它们 共同 覆盖 正 例 ,覆盖 程度 达到 所 希望 的 比例 。 算 法 被 称 为 序列 惟 盖 算法 是 因为 它 按 次 序 
学 习 到 一 组 规则 ,它们 共同 覆盖 了 全 部 正 例 。 最 终 的 规则 集 可 被 排序 ,这样 分 类 新 实例 时 可 先 
应 用 精度 最 高 的 规则 。 序 列 覆盖 算法 的 一 个 原型 在 表 10-1 中 陈述 。 


ME 101 SES AT ALATA RY OY 


SEQUENTIAL-COVERING( Target _ attribute, Attributes, Examples, Threshold ) 
@ Learned _ rules] | 
@ Rule«Leann-ONE-RULE( Target _ateribuee, Atiributes, Examples) 
@ 当 penrormaNnce( Rule, Examples) > Threshold 要: 
@ Learned _rules*— Learned _rules + Rule 
© Examples + Examples | 被 Rule 正确 分 类 的 样 例 | 
© Rule LEARN-ONE-RULEÍ Target _ attribute, Attributes, Examples ) 
® Learned Files 按照 在 Examples 上 的 PERFORMANCE 排序 的 Learned _ rules 
@ iB) Learned _ rules 





注 ; LEARN-ONE-RULE $ 38 A> MM BE AE Examples 的 规则 。PERFORMANCE RAP RRA TRA, AR AR 
E, SHARAF IN AARLE Threshold CRM ALAR. 


Fo BOE ee STRESSES OTA EA 
{Le HRS BH STAB RAS ATOR. HPEAT HE ARES 
He ,形成 序列 化 的 规则 且 没 有 回调 ,所 以 它 不 能 保证 找到 能 覆盖 样 例 的 最 小 的 或 最 佳 的 规则 。 

如 和 何 设计 LEaARN-oNERULE 程序 以 达到 序列 覆盖 算法 的 要 求 呢 ? 我 们 需要 一 个 算法 能 够 
形成 较 高 精度 的 规则 ,但 不 必 有 覆盖 所 有 的 正 例 。 在 本 节 中 展示 了 各 种 算法 ,并 描述 了 它们 在 学 
术 研 究 上 已 探索 的 主要 差别 。 本 节 只 考虑 命题 规则 ,后 面 的 节 中 将 讨论 如 何 把 这 些 算法 坟 展 
到 一 阶 Horn 子 句 。 


10.2.1 一 般 到 特殊 的 柱状 接 索 


实现 LEARN-ONE-RULE 的 一 个 有 效 途 径 是 将 假设 空间 搜索 过 程 设计 为 与 ID3 算法 中 相似 
的 方式 ,但 在 每 一 步 只 沿 着 最 有 希望 的 分 支 进行 。 如 图 10-1 所 示 的 搜索 树 ,搜索 开始 于 最 一 
般 的 规则 前 件 ( 即 能 匹配 所 有 实例 的 空 测试 ) ,然后 加 人 那些 在 训练 样 例 上 性 能 改进 最 大 的 属 
性 测试 。 一 旦 该 测试 被 加 人 ,重复 该 过 程 , 贪 束 地 加 入 第 二 个 属性 测试 ,依次 类 推 。 如 IDS A 
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样 ,该 过 程 通过 贪 禁地 增加 新 的 属性 测试 来 获得 假说 ,直到 该 假设 的 性 能 到 达 一 个 可 接受 的 程 
度 。 与 ID3 不 同 的 是 ,此 LEARN-ONE-RULE 的 实现 在 每 一 步 沿 着 单个 分 支 一 一 即 产生 最 佳人 性 能 
的 属性 - 值 对 ,而 不 是 用 增长 子 树 的 办 法 覆 羡 所 选 属性 的 所 有 可 能 值 。 

这 种 实现 LEARN-ONE-RULE 的 途径 执行 的 是 对 可 能 存在 的 规则 的 一 般 到 特殊 搜索 ,以 得 到 
一 个 有 较 高 精度 但 不 一 定 完全 覆盖 数据 的 规则 。 如 在 决策 树 学 习 中 那样 ,有 许多 方法 可 以 定 
义 选择 "最 侍 ” 分 支 的 度量 标准。 与 在 IDS 中 类 似 ,我 们 可 定义 最 性 分 支 , 它 覆盖 的 样 便 有 最 
低 的 篇 (如 式 43.3))。 


IF 
THEN Playfennis=yes 


IF Wind=weak 
THEN PiayTennis=yes 


IF dara IF Humidity=high 
THEN PlayTentiz=no IF IF Humidiry=normai THEN Playfennit=no 
ZN 


IF rr 
Wind=weak 
THEN PiayTennis=yes 
IF a 


IF rire? de tg 
THEN PlayTewnis= yes i phe | THEN oe = yes 
THEN 人 
每 -- 步 ,最 佳 规则 的 前 件 笠 凡 各 种 可 能 方式 特 化 。 规 则 后 件 是 由 满足 前 提 订 忻 的 样 例 所 决定 的 。 该 图 显示 的 


是 宽度 为 芷 的 柱状 接 索 
图 10-1 LEARN-ONE-RULE 从 一 般 到 特殊 过 程 中 的 规则 前 件 搜 索 


上 而 推荐 的 一 般 到 特殊 的 搜索 是 不 带 回 洲 的 贪 整 深度 优先 搜索 。 如 其 他 贪 禁 搜 索 一 样 ， 
它 所 带 来 的 危险 是 每 一 步 可 能 做 出 次 优 的 选择 。 为 减 小 这 种 风险 ,可 将 此 算法 扩展 为 一 种 在 
状 搜索 {beam search) , 即 每 一 步 算法 保留 下 个 最 佳 候 选 的 列表 ,在 每 一 搜索 步 对 这 关 个 最 佳 
候选 生成 分 支 ( 特 化 ) ,并 且 结 果 集 再 被 前 减 至 个 最 可 能 成 员 。 柱 状 搜索 跟踪 当前 最 高 分 值 
假设 的 最 有 希望 的 替代 者 ,以 使 每 一 步 中 它们 的 所 有 后 继 都 被 考 碟 到 。 该 一 般 到 特殊 柱状 搜 
索 用 于 CN2 程序 , 它 由 Clark & Niblett(1989) 提 出 。 该 算法 在 表 10-2 中 描述 。 


10-2 LEARN ONEALLE 的 一 种 实现 是 一 般 到 特殊 柱状 楼 索 


LEARN-ONE-RULE( Target _atiribute, Attributes, Examples, k) 
1B El — 7 ESE FE I, SR AER AE EER RLRE REH , H pERFORMANCE 度量 来 3 引导 
@ Pitt Best hypothesis 为 最 一 般 的 起 设 O 
@ 初始 化 Candidate hypotheses HME | Best _ hypothesis | 
© 当 Candidate hypotheses F WUT RE : 
1. AER Sp RE RE 
@ All _constrains-MABA (a= +) 的 约束 集合 ,其 中 o 为 Atiributes HRA, v 为 出 现在 当前 Ex- 
amples 集合 中 的 = 值 
@ New candidate _ hypothese 
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对 Candidate _ hypotheses PHA, 
RY AL _ constraints PREF e 
e 通过 加 人 约束 ¢ 创建 一 个 & 的 特 化 式 
© 从 New candidate _ hypotheses PRAM BRM ,不一致 的 或 非 极 太 特 原 化 的 假设 
2， 更 新 Best _ hypothesis 
@ 对 New candidate _ hypotheses PRIA hk RU FRE: 
© (0% (rerronmance(h, Examples, Target _ attribute) 
> PERFORMANCE! Hest Aypothesis, Examples, Target _ attribute )) 
则 Best _hypothestss—A 
3. 更 新 Candidate _ hypotheses 
@ Candidate _hypotheses*- New _ candidate _ hypotheses 中 天 个 最 佳 成 员 72/4 perroamance = E 
名 返回 -一 个 如 下 形式 的 规则 : 
“AFL Best _ hypothesis, M) prediction” 
其 中 prediction 为 在 与 Best hypothesis LALAY Examples 中 最 频繁 的 Target _ attribute (A 
PERFORMANCE( A, Examples, Target _ attribute } 
@ A exampla~—5 h ERRI Example TH 
@ 返回 -Knitropy(th _examples), AF Entropy BRT Target _attribute KR 


注 : HMMM RA EE Candidate hypotheses. MIRA Clark & Niblett ( 1989) CN? AE A, 


下 面 是 对 表 10-2 中 的 LEARN-ONE-RULE 算法 的 说 明 。 首 先 ,注意 在 算法 主 循环 中 考 虚 的 
每 个 假设 是 属性 - 值 约束 的 合 取 。 每 个 合 取 假设 对 应 于 符 学 习 规 则 的 收 选 前 件 集合 , 它 由 其 覆 
盖 的 样 例 的 入 来 评估 。 搜 索 过 程 不 断 特 化 候选 假设 ,直到 到 达 一 个 极 大 特殊 假设 , 它 包 含 所 有 
证 用 的 属性 。 由 该 算法 输出 的 规则 为 搜索 过 程 中 遇 到 的 性 能 最 佳 (PERFORMANCE 最 大 ) 的 规则 
一 一 不 一 定 是 搜索 最 终 产 生 的 假设 。 规 则 9 的 后 件 输出 只 在 算法 的 最 后 一 步 产 生 , 在 其 前 件 ( 表 
示 为 变量 Best _hypothesis) 确 定之 后 ,算法 构造 出 的 规则 后 件 用 于 预测 在 规则 前 件 所 能 狂 盖 的 
样 例 中 最 常见 的 目标 属性 值 。 最 后 还 应 注意 ,尽管 使 用 了 柱状 搜索 以 减 小 风险 , SE He 1 
能 产生 次 优 的 规则 。 即 使 这 样 ,序列 覆盖 算法 仍 能 学 到 一 组 规则 ,它们 共同 覆盖 训练 样 例 , 因 
为 它 对 剩余 的 未 覆盖 样 例 重 复 调 用 J LEARN-ONE-RULE。 


10.2.2 几 种 变型 


序列 疆 盖 算法 以 及 LEARN-ONE-RULE 算法 可 学 习 if-then 规则 和 集 以 覆盖 训练 样 例 。 该 途径 
有 许多 变型 。 比 如 , 某 些 情况 下 可 能 希望 程序 只 学 习 槛 盖 正 例 的 规则 ,并 且 对 该 规则 没有 柳 盗 
的 实例 “上 默认 ”地 赋予 其 反例 分 类 。 上 比如 ,这 种 方法 适用 于 学 习 目 标 概 念 “ 可 能 怀 有 双胞胎 的 孚 
妇 ”。 在 这 种 情况 下 , 正 例 在 整个 群体 中 所 占 比例 很 小 ,所 以 规则 集 如 果 只 标定 正 例 的 类 别 , 而 
对 所 有 其 他 样 例 默认 分 类 为 反例 ,规则 集会 更 为 简洁 易 懂 。 这 一 方法 对 应 于 PoLoc PINK 
败 否 定 ” 策 略 , 其 中 不 能 证 明 为 真 的 表达 式 都 默认 为 假 。 为 了 学 习 这 样 的 只 预测 单个 目标 值 的 
规则 ,需要 修改 LEARN-ONE-RULE 算法 以 接受 附加 的 输入 变量 ,指定 感 兴趣 的 目标 值 。 一 般 到 


特殊 柱状 搜索 像 以 前 一 样 处 理 , 只 要 修改 评估 假设 的 PERFORMANCE 子 程序 。 注 意 ,PERFOR- 
MANCE 定义 为 负 精 已 不 再 适用 于 这 一 新 的 设 定 ,因为 它 把 只 覆盖 反例 的 假设 赋予 了 最 大 分 值 ， 


与 只 覆盖 正 例 的 假设 一 样 。 这 种 情况 下 使 用 该 假设 覆盖 正 例 比例 的 度量 标准 则 更 为 适合 。 
算法 的 另 一 变型 是 一 组 称 为 AO 的 算法 ( Michalsk 1969, Michalski et al. 1986), EH Ei 

基于 CN2 算法 的 讨论 更 早 。 如 CN2 一 样 ,AQ 学 习 析 取 规 则 集 来 覆盖 目标 函数 。 然 而 , AQ 

与 上面 给 出 的 算法 有 以 下 不 同 :首先 , AQ 的 覆盖 算法 与 序列 杆 盖 算 法 不 同 , 因 为 它 明 确 地 寻 
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找 蓝 盖 特 定 目 标 值 的 规则 ,然后 ,对 每 个 目标 值 学 习 一 个 析 取 规则 集 。 其 次 ,AQ 算法 学 习 单 
个 规则 的 方法 也 不 同 于 LEARN-ONE-RULE。 当 它 对 每 个 规则 执行 一 般 到 特殊 柱状 搜索 时 , 它 围 
绕 单 个 正 例 来 进行 搜索 。 确 切 地 说 , 它 在 搜索 中 只 考虑 被 该 正 例 满足 的 属性 ,以 得 到 爱 渐 特殊 
的 很 设 。 每 次 学 一 个 新 规则 时 , 它 从 那些 未 理 盖 的 样 例 中 也 选择 一 个 新 的 正 例 ,作为 种 子 以 指 
引 新 析 取 项 的 搜索 。 


10.3 >) AUR :小结 


上 面 讨论 的 序列 覆盖 算法 和 第 3 章 中 的 决策 树 学 习 算 法 提供 了 凡 种 学 习 规 则 集 的 方法 . 
本 节 考 虑 这 些 规则 学 习 算法 设计 中 的 关键 思想 。 

第 一 ,序列 惟 盖 算法 每 次 学 习 一 个 规则 , 移 去 惠 盖 的 样 例 后 在 剩余 样 例 上 重复 这 一 过 程 。 
相反 ,如 ID3 那样 的 决策 树 算 法 使 用 单个 搜索 过 程 来 捷 索 可 接受 的 决策 树 ,每 一 步 并 行 学 习 
整个 析 取 项 的 集合 。 因 此 ,我 们 也 可 将 ID3 这 样 的 算法 称 为 并 行 禾 盖 算法 。 对 应 于 CN2 这 样 
的 序列 覆盖 算法 , 哪 一 种 算法 比较 好 ? BRK RETR PRR RSA ZH, IDI 
每 一 搜索 步 中 根据 它 对 数据 产生 的 划分 选择 不 同 的 属性 。 相 反 ,CN2 选择 的 是 不 同 的 属性 - 值 
对 ,方法 是 通过 比较 它们 和 覆盖 的 数据 子 集 。 要 看 出 这 种 差别 的 意义 所 在 ,需要 比较 两 种 算法 为 
学 习 到 相同 的 规则 集合 所 化 出 的 不 同 选 择 的 次 数 。 为 了 学 习 到 n 个 规则 的 集合 ,每 个 规则 前 
件 包 合 太 个 属性 值 测 试 ,序列 覆盖 算法 需要 执行 nek 次 基本 搜索 步 ,为 每 个 规则 的 每 个 前 件 
做 独立 的 选择 ,而 并 行 覆 盖 算 法 的 独立 选择 次 数 远 远 少 于 它 ,因为 在 决策 树 中 每 个 决策 结 点 的 
选择 都 对 应 了 与 该 结 点 相关 联 的 多 个 规则 的 前 件 选择 .换言之 ,如 果 决 策 络 点 测试 一 个 有 m 
种 可 能 值 的 属性 ,每 次 决策 结 点 的 选择 都 对 应 了 对 m 个 相应 的 规则 中 每 个 规则 的 前 件 选 择 
(见习 题 10. 1)。 这 样 ,序列 覆盖 算法 (如 CN2) 做 出 的 独立 选择 次 数 高 于 ID3 ARRAS Te 
算法 。 人 但 哪 一 种 算法 更 好 呢 ?” 其 解答 依赖 于 有 多 少 训 练 数据 是 可 用 的 。 如 果 数 据 非 常 丰富， 
那么 它 可 以 支持 序列 覆盖 算法 所 要 求 的 较 大 数量 的 独立 选择 。 然 而 若 数据 较 缺 乏 , 对 于 不 同 
规则 前 件 的 据 策 “共享 " 则 更 有 效 。 另 一 考虑 在 于 特定 的 任务 中 是 省 希望 不 同 的 规则 测试 相同 
的 属性 。 在 并 行 覆盖 决策 树 学 习 算 法 中 会 出 现 这 样 的 情况 ,在 序列 覆盖 算法 中 则 不下 在 。 

第 二 个 相 异 之 处 在 于 LEARN-ONE-RULE 搜索 的 方向 。 在 上 面 描述 的 算法 中 ,搜索 是 从 一 般 
到 特殊 的 。 其 他 已 讨论 的 算法 (如 第 2 章 中 的 Finp-S) 是 从 特殊 到 一 般 的 。 在 此 情况 下 ,从 一 
般 到 特殊 搜索 的 一 个 优点 在 于 只 有 一 个 极 天 一 般 假 设 可 作为 搜索 起 始点 ,而 在 多 数 息 司空 间 
中 有 很 多 特 殊 很 设 (如 对 每 个 实例 有 一 个 假设 )。 因 为 有 许多 极 大 特殊 假设 ,就 不 能 确定 选择 
哪 一 个 作为 搜索 的 开始 点 。 执 行 从 特殊 到 一 般 搜索 的 一 个 称 为 CoLEM (Muggleton & Feng 
1990) 的 程序 解决 此 问题 的 方法 是 随机 选择 多 个 正 例 ,以 此 为 初始 来 进行 搜索 。 在 多 个 随机 选 
择 中 的 最 侍候 设 作为 最 后 结果 。 

第 三 个 要 考虑 的 是 LEARN-ONE-RULE 是 为 一 个 生成 再 测试 (generate then test) 搜 索 ,范围 为 
所 有 合法 的 假设 ,如 我 们 推荐 的 实现 中 那样 ;还 是 一 个 样 例 皮 动 (example-driven) 搜 索 ,以 使 训 
练 样 例 个 体 约束 假设 的 生成 。 样 例 驱 动 搜 索 算法 包括 第 2 章 的 FIND-S、 候 选 消 除 、.A0 算法 以 
及 本 章 后 面 要 讨论 的 CicoL 算法 。 在 这 些 算法 中 , 对 假设 的 生成 或 修正 是 由 单独 的 训练 样 例 
驱动 的 ,而 且 绪 果 是 一 个 已 修正 的 很 设 , 使 对 此 单个 样 例 的 性 能 得 到 改善 。 这 不 同 于 表 10-2 
中 LEARN-ONE-RULE 算法 的 生成 再 测试 搜索 ,其 中 后 续 的 假设 的 生成 只 基于 人 很 设 表示 的 语法 
在 这 些 候 选 假设 生成 之 后 再 分 析 训 练 数 据 , 然 后 基于 这 些 很 设 在 全 部 样 例 上 的 性 能 来 进行 选 
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择 。 生成 再 测试 的 一 个 重要 优点 是 搜索 中 每 一 步 的 选择 都 基于 在 许多 样 例 上 的 假设 性 能 , 因 
此 噪声 数据 的 影响 被 最 小 化 。 相 反 , 样 例 驱 动 算法 基于 单个 的 样 例 改 进 假设 , 它 更 容易 被 一 些 
噪声 训 江 样 鲍 影 响 ,因此 对 训练 数据 中 差错 的 健壮 性 较 差 。 


第 四 ,是 否 需 要 对 规则 进行 后 修剪 以 及 怎样 后 修剪 、 如 在 决策 树 学 习 中 一 样 , LFARN-ONE- 
RULE 也 有 可 能 形成 在 训练 数据 上 性 能 很 好 的 规则 ,但 在 以 后 的 数据 中 很 差 的 规则 。 解 决 的 办 


法 也 是 在 得 到 每 个 规则 后 进行 后 修剪 。 确 切 地 讲 , 可 以 移 去 某 些 前 件 ,只 要 能 提高 不 局 于 训练 
样 例 的 用 于 后 修剪 的 样 例 集合 上 的 性 能 ,对 于 后 修剪 重 详细 的 讨论 见 前 面 的 内 容 。 
最 后 要 考虑 的 是 指引 LEARN-ONE-RULE 的 搜索 方向 的 规则 性 能 (PERFORMANCE) 的 定义 。 目 
前 存在 各 种 不 同 的 评价 六 数 ,常用 的 评估 了 东 数 包括 : 
© 相 对 频率 (relative frequency): $ n 代表 规则 所 匹配 的 样 例 数目 , 令 m 代表 其 中 它 能 正 
确 分 类 的 数目 。 规 则 性 能 的 相对 频率 估计 为 : 


Ti 


相对 频率 被 用 于 在 AQ 程序 中 评估 规则 。 
© AK m-4 1 ( m-estimate of accuracy): 该 精度 估计 偏向 于 规则 所 期 望 的 默认 精度 。 
它 在 数据 比较 缺乏 目 规 则 必须 在 很 少 的 样 例 上 评估 时 常用 。 令 n Ain, 如 上 定义 , 令 p 
为 从 整个 数据 集中 随机 抽取 的 样 例 与 该 规则 赋予 的 分 类 相 局 的 先 验 概率 (例如 ,如 果 
100 个 样 例 中 有 12 个 与 该 规则 的 预测 值 相同 ,那么 p =0.12)。 最 后 , 令 m 为 权 ,或 称 
对 此 先 验 概率 p 进行 加 权 的 等 效 样 例 数目 。 对 规则 精度 的 m- hit A: 
ihe 十 mp 


n 十 Mt 

注意 ,如 果 m 被 设 为 0, 则 mm- 佑 计 变 为 上 面 的 相对 频率 估计 。 当 m 土 升 时 ,需要 更 多 
的 样 例 来 元 服 这 个 预先 假定 的 精度 po m-th EMH Cestnik & Bratko(1991) 提 出 ， 
它 已 被 用 于 某 些 版 本 的 CN2 算法 中 。 它 也 被 用 于 第 6.9. 1 节 讨 论 的 朴素 贝 叶 斯 分 类 
fF o 

® J (entropy) :这 是 在 表 10-2 中 使 用 的 PERFORMANCE 子 程序 中 使 用 的 度量 。 令 5 为 匹配 
规则 前 件 的 样 例 集 合 。 坑 衡量 的 是 该 样 例 集 合 中 目标 国 数 的 均一 性 。 这 里 使 用 丧 的 负 
值 ,以 使 较 佳 的 规则 拥有 较 珊 的 分 值 ， 


= Entropy (S) = > pilogzp: 
其 中 ,< 为 目标 函数 可 取 的 不 局 值 数量 , p; 为 S 中 目标 晒 数 取 第 ; 个 值 的 样 例 所 占 比 
例 。 与 统计 意义 测试 相 结合 , 坑 度量 用 于 CN2 算法 (Clark & Niblett 1989), 它 也 是 许 
多 决策 树 学 习 算法 中 信息 增益 度量 的 基础 。 


10.4 学 习 一 阶 规则 


前 面 讨 论 的 算法 针对 学 习 命 题 规则 集 { 即 无 变量 的 规则 )。 本 节 中 将 考 虚 带 有 变量 的 规 
如 ,确切 地 讲 为 一 阶 Horn 子 句 。 之 所 以 考虑 这 样 的 规则 ,是 因为 它们 比 命题 规则 更 有 表征 能 
力 , 一 阶 规划 的 归纳 学 习 通 常 被 称 为 归纳 还 轩 编程 (Inductive Logic Programming, ILP), 因为 
这 一 过 程 可 看 作 从 样 例 中 自动 推论 出 PRoLOG 程序 。PrRoLoc 是 一 个 通用 的 相当 于 图 灵机 使 
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用 的 编程 语言 ,其 中 程序 被 表示 为 一 组 Horn Fls 
10.4.1 —Br Hom FA 


为 说 明 一 阶 表示 比 命题 (无 变量 ) 表 示 的 优越 之 处 ,考虑 一 个 学 习 任 务 ,目标 概念 很 简单 ， 
即 Parxehterfx,y) 定 义 在 所 有 的 人 s My Eo Daughter( x, y) WEE x Æ y HILAR, 
否则 为 假 。 假 定 每 个 人 被 描述 为 属性 Name, Mother, Father, Male 和 Femaie。 因 此 每 个 训 
练 样 例 将 包含 用 这 些 属性 描述 的 两 个 人 以 及 目标 属性 Daughter 的 值 。 例 如 ,下 面 的 正 例 ,其 
中 Sharon 为 Bob 的 女儿 。 


‘ Name, = Sharon, Mother, = Louise, Father, = Bob, 
Male, = False, Female; = True, 

Name = Bob, Mother, = Nore, Father, = Victor, 
Males = True, Female, = False, Daughter |. = True> 


其 中 ,每 个 属性 和 名 上 的 下 标 是 为 了 区 分 这 两 个 人 。 现 在 ,如 果 搜 过 许多 这 样 的 目标 概念 
Daughter, 的 训练 样 例 ,并 将 它们 提供 给 一 个 命题 规则 学 习 器 ,如 CN2 和 C4.5, 结 果 将 为 一 
组 非常 特殊 的 规则 ,如 

IF ( Father, = Bob) A (Name, = Bob) A (Female, = True) 

THEN Daughter). = True 

虽然 这 个 规则 是 正确 的 ,但 它 过 于 特殊 了 ,因此 它 对 今后 的 分 类 几乎 毫 无 用 处 。 问 题 在 
于 ,命题 表示 方法 不 能 够 描述 属性 值 之 间 的 实质 关系 。 与 此 不 同 , 使 用 一 阶 表示 的 程序 将 学 到 
下 面 的 一 般 规则 ， 

IF Father(y.x) A Female(y), THEN Daughter( x,y) 

其 中 ,x My 为 变量 ,它们 可 指 代 任何 人 。 

一 阶 Horn 子 多 还 可 指定 前 件 中 的 变量 不 出 现在 后 件 中 的 规则 。 例 如 ,对 CrandDaughier 
的 规则 为 : 

IF Father y, z) A Mother z, x) A Female(y) 

THEN GrandDaughter( x,y) 

注意 该 规则 中 的 变量 2, CHR y 的 父亲 ,在 规则 后 件 中 没有 出 现 。 当 一 个 变量 只 在 前 件 
中 出 现时 ,假定 它 是 被 存在 量化 (existentially quantified) 的 , 即 只 要 存在 该 变量 的 一 个 约束 能 
满足 对 应 的 文字 ,那么 规则 前 件 就 满足 。 

还 可 能 在 规则 的 后 件 和 前 件 中 使 用 相同 的 谓词 描述 递归 的 规则 。 如 本 章 开头 的 两 个 规则 
提供 了 概念 Ancestor (x,y) 的 递归 定义 。 以 下 将 描述 的 ILP 学 习 方 法 已 可 以 学 习 几 种 简单 的 
递归 函数 ,包括 上 面 的 Ancestor 函数 以 及 其 他 一 些 函 数 ,如 对 列表 中 元 素 进行 排序 ;从 列表 中 
移 去 一 特定 元 素 ;拼接 两 个 列表 。 


10.4.2 术语 


在 继续 介绍 学 习 Horm 子 句 集 的 算法 之 前 , 先 介 绍 一 些 形式 逻辑 中 的 基本 术语 。 所 有 的 
表达 式 由 常量 (如 , Bob, Louise) ERGO x.y) MAIS (AN Married, Greater _ Than VAR 
函数 符号 (如 , age) 组 成 。 谓 词 和 函数 的 区 别 在 于 谓词 只 能 取 值 真 或 假 ,而 函数 的 取 值 可 为 任 
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意 常量 。 这 里 使 用 小 写 符 导 表示 涌 数 ,大 写 符号 表示 谓词 。 

对 于 这 些 符 号 ,可 构造 如 下 表达 式 : 项 (term) 是 任意 常量 .任意 变量 或 应 用 到 任意 项 上 的 
任意 函数 (如 , Bo，xr ，asge(Bop) 等 )。 一 个 文字 (literal) 是 应 用 到 项 上 的 任意 谓词 或 其 否定 。 
如 Married (Bob, Louise), — Greater _ Than (age( Sue),20)%, MRRFRA DS HE 
(一 ) ,将 其 称 为 负 文 字 (negative literal) ,否则 为 正文 字 (poasitive literal) 。 

子 向 (clause) 是 多 个 文字 的 任意 析 了 到 ,其 中 所 有 的 变量 假定 是 全 称 量 化 的 。Horn 子 句 
(Horn clause) 为 包 信 至 多 一 个 正文 字 的 子 句 ,例如 ， 

HV Veh, 
EP HARE MOL OL, 为 负 文字 。 由 于 等 式 (BV 一 4)=(B<4) 和 一 (4A 
B)=(7AV—B), EMM Hom 子 句 可 被 写 为 如 下 形式 ， 
H(A La) 
它 与 我 们 前 面 的 规则 等 价 ,按照 让 then 的 写法 如 下 : 
IFL AA La, THEN H 


无 论 写 法 如 何 ,Horn FARA LA AL, 被 称 为 子 合体 (body) 或 者 子 句 先行 词 (an- 
tecedents) 。 文 字 H 后 件 称 为 子 句 关 (head) 或 子 句 推论 (consequent)。 为 参考 方便 ,这 些 定义 
以 及 本 章 后 将 介绍 的 概念 在 表 10-3 中 列 出 。 


R103 一 阶 逻辑 中 的 基本 定义 


SET RRM RRA REC Mory,23 或 Je), REC x) MME femalel Mary) 中 的 Female) ABM 
【如 在 agel Mary) FAY sage) 组 成 
O 项 Lterm) 为 任意 常量 ,任意 变量 或 任意 应 用 到 项 集合 上 的 函数 。 例 如 , Mary. x, age( Mary), agel x} 
a 文字 {bterq) 是 应 用 到 项 集合 上 的 任意 谓 词 或 其 否定 。 例 如 , Female{ Mary), ~ Female(x), Greater _ than 
(agel Mary), 20) 
O 基本 立定 (ground liters BPA HAS EMS SCM, ~ Femalel Joe) ) 
@ ü LF (negative lites HAASE MAM SM, Female( Joe) ) 
© £X F (postive literal) 是 不 包 合 和 理 定 符 导 的 文字 (如 ，, Femalel Joe)) 
O 子 昌 olause) 是 名 个 文字 的 桥 取 式 , MV... M ;其 中 的 所 有 变量 是 全 称 量化 的 
@ Hom 子 向 是 一 个 如 下 形式 的 表达 式 ， 
五 二 【1 二) 
其 中 A, beL WER. AMR Hom FEA (head) REE (consequent). AFARA LA LA A 
L, BR Hom 子 杀 的 体 {body) 或 者 先行 词 (antecedenta) 
O 对 任意 文字 4 AWB, BIR A+ BRE AV 8) RA CAA BERT AV 一 B}。 因 此 ,一 个 
Horn FAEERE A FEDERA.: 
HYL NVO OBL, 
O 重 捷 (eubstitution) 是 一 个 将 某 些 变量 替换 为 某 些 项 的 函数 。 例 如 ,置换 | x* 汪 ，yzzj 把 变量 + 替换 为 项 3 并 且 
把 变量 y PRs. ARETE OARS LRN 16 民 表 应 用 置换 8 到 工 得 到 的 结果 
@ 两 个 文字 L 和 上 ; WA- EA unifying substitution) H E— EH 9, 使 得 L G= Lad 





10.5 学 习 一 阶 规则 集 :;FOIL 


有 许 儿 算法 已 被 提出 用 于 学 习 一 阶 规 则 或 Hon 子 句 。 本 节 中 将 介绍 FOIL 程序 (Quin- 
lan 1990) , 它 使 用 的 方法 非常 类 似 于 前 面 介 绍 的 序列 覆盖 和 LEARN-ONERULE 算法 。 实 际 上 ， 
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FOIL 是 这 些 较 早 的 算法 在 一 阶 表示 上 的 自然 扩展 。 形 式 化 地 讲 , 由 了 OIL 学 习 的 假设 为 一 阶 
规则 集 ,其 中 的 规则 类 似 于 Horn 子 句 ,但 有 两 个 不 同 :首先 ,由 FOIL 学 习 的 规则 比 一 般 的 
Hom 于 人 句 重 受 限 , 因 为 文字 不 允许 包含 羡 数 符号 (这 减 小 了 假设 空间 搜索 的 复杂 度 }。 其 次 ， 
FOIL 规则 比 Hon 子 句 更 有 表征 力 ,因为 规则 体 中 的 文字 也 可 为 负 文 字 。FOIL 已 被 应 用 于 
多 种 问题 领域 。 例 如 , 它 已 用 于 学 习 快 速 排序 算法 Quicksort 的 递归 定义 ,以 及 学 习 从 合法 
棋盘 状态 中 区 分 出 非法 状态 。 

FOIL 算法 在 表 10-4 中 列 出 。 注 意外 层 循环 对 应 于 前 面 描述 的 序列 覆盖 算法 。 它 每 次 学 
习 一 个 新 规则 ,然后 将 此 规则 覆盖 的 正 例 移 去 ,再 学 习 下 一 规则 。 算 法 的 内 层 循环 是 前 面 的 
LEARN-ONE-RULE 的 另 一 种 形式 , 它 已 被 扩展 以 适合 处 理 一 阶 规则 。 述 要 注意 FOIL 和 和 前面 算 
法 的 一 些微 小 的 不 向。 确切 地 讲 , FOIL 只 搜寻 那些 蔬 测 目标 文字 何 时 为 True 的 规则 ,而 前 
面 的 算法 既 搜 寻 预 测 何 时 为 True 的 规则 ,也 搜寻 预测 何 时 为 False 的 规则 。FOIL 还 应 用 了 
一 个 简单 的 仆 山 搜索 ,而 不 是 柱状 搜索 ( 即 它 执行 的 搜索 等 价 于 宽度 为 1 的 柱状 搜索 )。 


#104 基本 的 FOIL 算法 


FOILI Target _ predicate, Predicates, Examples } 
@ Poss Examples 中 Target _ predicate 为 True 的 成 员 
E Neg*— Examples 中 Target _ predicate 关 False 的 成 员 
Legrned |. rudes*-{ | 
e 当 Pos AS, LLP RE: 
EH New Rule 
© NewRule*- 没 有 前 性 的 谓词 Target _ predicate 规则 
@ New RuleNeg~ Neg 
@ 当 NewRuleNeg 不 空 ,做 以 下 操作 ， 
增加 新 交 字 以 特 化 New Rule 
@ Candidate _ literals 对 New Rule 生成 候选 新 文字 ,基于 Predicates 
@ Best _ hierait gmax Foil _ Gaint L, New Rule) 
@ 把 Best _ literal MAB] New Rule 的 前 件 
© New RuleNeg* NewRuleNeg FRE New Rute 前 件 NFR 
@ Learned _rules* Learned _ rules + New fule 
@ Poss Pos- | 被 NewRule MGA) Pos 成 员 | 
OEE Learned _ rules 


7 注 ; APT ERASE Candidate _ literals 的 方法 和 FOIL 增益 Foil Gain WX, PARAL TMM YA 
ESHA EP RE, Ebel PAH, 

为 理解 由 FOIL 执行 的 假设 空间 搜索 ,最 好 将 其 看 作 是 层次 化 的 。FOIL 外 层 种 环 中 每 次 
将 加 入 一 条 新 的 规则 到 其 析 取 式 人 很 设 Learned _ rules 中 去 。 每 个 新 规则 的 效果 是 通过 加 入 一 
个 析 取 项 汉化 当前 的 析 取 假设 ( 即 增加 其 分 类 为 正 例 的 实例 数 )。 在 这 一 层次 上 看 ,这 是 假设 
空间 的 特 珠 到 一 般 的 搜索 过 程 , 它 开始 于 最 特殊 的 空 析 取 式 ,在 假设 足够 一 般 以 至 覆盖 所 有 正 
例 时 终止 。FOIL 的 内 宕 循环 执行 的 是 细 粒 度 较 高 的 搜索 ,以 确定 每 个 新 规则 的 确切 定义 。 
该 内 层 循 环 在 男 一 假设 空间 中 搜索 , 它 包 含 文字 的 合 取 ,以 找到 一 个 合 取 式 形成 新 规则 的 十 
件 。 在 这 个 假设 空间 中 , 它 执行 的 是 一 般 到 特殊 的 息 山 搜索 ,开始 于 最 一 般 的 前 件 ( 空 前 件 )， 
然后 增加 文字 以 使 规则 特 化 直到 其 避 开 所 有 的 反例 。 

在 FOIL 和 前 面 的 序列 覆盖 和 LEARN-ONE-RULE 算法 之 间 有 两 个 最 实质 的 不 同 , 它 来 源 于 
此 算法 对 一 阶 规 则 处 理 的 需求 。 这 些 不 同 在 于 : 
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1) 在 学 习 每 个 新 规则 的 一 般 到 特殊 搜索 中 ,FOIL 使 用 了 不 同 的 细节 步 又 来 生成 规则 的 
候选 特 化 式 。 这 一 不 同 是 为 了 处 理 规则 前 件 中 含有 的 变量 。 

2) FOIL 使 用 的 性 能 度量 Foil Gain 不 同 于 表 10-2 中 的 糖度 量 。 这 是 为 了 区 分 规则 变 
基 的 不 同 约束 ,以 及 由 于 FOIL 只 搜寻 覆盖 正 例 的 规则 。 

直面 两 节 将 更 详细 地 考虑 这 两 个 不 同 之 处 。 


10.5.1 FOL 中 的 伟 选 特 化 式 的 生成 


为 了 生成 当前 规则 的 候选 特 化 式 ,FOEL 生成 多 个 不 同 的 新 文字 , 每 个 可 被 单独 地 加 到 规 

则 前 件 中 。 更 精确 地 讲 ,假定 当前 规则 为 
PC x1, X25 te Sp) EL, 

Rp Ly, 为 当前 规则 前 件 中 的 文字 ,而 P(x), Os 0. ALU SE CRUG EF) o FOIL 
生成 该 规则 的 候选 特 化 式 的 方法 是 考虑 符合 下 列 形式 的 新 文 衬 上 上, ,1: 

© Oo .tr 其 中 心 为 在 Predicaies 中 出 现 的 任意 谓词 名 ,并 且 v; 既 可 为 新 变量 ， 

也 可 为 规则 中 已 有 的 变量 。w 中 至 少 一 个 变量 必须 是 当前 规则 中 已 有 的 。 

@ Equal(x;, xi) AP x; Os, 为 规则 中 已 有 的 变量 。 

e 上 述 两 种 文字 的 省 定 。 

为 说 明 这 一 点 ,考虑 待 学 习 的 规则 是 预测 目标 文字 GrandDaughter (x, 7) ,其 中 描述 样 例 
的 其 他 谓词 包括 Father 和 Female, FOIL 中 的 一 般 到 特殊 搜索 开始 于 最 一 般 的 规则 ; 

GrandDaughter (x, y)*- 

它 断 言 对 任意 x M y, GrandDaughter 都 为 真 。 为 特 化 这 一 初始 规则 ,上 面 的 过 程 生成 下 列 
文字 作为 将 添加 到 规则 前 件 中 的 候选 文字 ; Equal (x,y). Female( x), Female(y), Father (x, 
y), Father(y, x}, Father(«,2). Father{z, x), Father(y,2), Father(z,,)URREXSH A 
ECA:  Equal(«,y))o HER RH s 是 一 新 变量 , 面 x 和 y 是 当前 规则 中 已 有 的 。 

现在 假定 在 上 述 文 字 中 FOIL 贪 禁 地 选择 了 Farther(y，z) 作 为 最 有 希望 的 文字 ,得 到 :~ 
个 较 特殊 的 规则 ， 

GrandDaughter (x, y)*- Father(y,2) 

在 生成 为 进一步 特 化 该 规则 的 候选 文字 时 ,FOIL 要 考虑 的 文字 除 上 一 步 所 有 文字 之 外 ， 
还 要 加 上 Femaile(z)、 Equal(z,x), Equal(z,y)、Father(z, w}, Father( w, z) VAR ETIRI 
否定。 之 所 以 加 上 这 些 文字 是 因为 前 一 步 变量 z 被 加 到 规则 中 ,所 以 FOIL 要 考虑 增加 另 -- 
个 新 变量 w。 

如 果 了 OIL 这 时 选择 了 Father (zx), 然 后 在 于 一 循环 选择 了 文字 Female(y) ,将 得 到 下 
面 的 规则 。 它 只 覆盖 正 例 ,因此 ,终止 了 进一步 搜索 该 规则 的 特 化 式 的 过 程 : 

GrandDaughter(x, y) «-Father(y, z) A Father(z,x) ^ Female(y) 

这 时 ,FOIL 将 会 移 去 被 该 新 规则 著 盖 的 所 有 样 例 。 如 果 还 有 未 覆盖 的 正 例 ,算法 将 开始 

.下 一 个 一 般 到 特殊 搜索 以 获得 新 的 规则 。 


10.5.2 引导 Fo 的 搜索 


要 在 每 一 步 中 从 候选 文字 中 选择 最 有 和 希望 的 文字 ,了 OIL 在 训练 数据 上 测量 规则 的 性 能 。 
在 此 过 程 中 , 它 考 虑 当前 规则 中 每 个 变量 的 可 能 的 约 东 。 为 说 明 这 一 过 程 ,再 次 考虑 学 习 目 标 
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文字 GrandDaoughter( x yy) 的 规则 集 的 例子 。 假 定 训 练 数据 包 会 下 列 的 简单 的 断言 集合 ,其 
中 使 用 约定 的 P(x,y) 可 被 读 作 "x 的 P 是 y”。 

GrandDaughter ( Victor, Sharon) Father( Sharon, Bob) Father( Tom, Bob) 

Female( Sharon ) Father ( Bob, Victor} 

对 这 个 封闭 的 世界 还 要 作 一 假定 , 即 任何 涉及 到 谓词 GrandDaughter. Father, Female 
及 常量 Victor Sharon , Bob 和 Tom 的 文字 , 若 它 们 设 有 在 上 面 列 出 , 则 被 假定 为 False (如 ,我 
ALAB Heat SB — GrandDaughter( Tom , Bob), 7 GrandDaughter ( Victor, Victor) $). 

为 选择 当前 规则 的 最 佳 特 化 式 ,FOIL 考虑 规则 变量 约束 到 训练 样 例 中 各 常量 的 每 种 不 
同 的 方式 。 例 如 ,在 初始 步 ,规则 为 ; 

GrandDaughter ( x, yy 

规则 变量 没有 被 任何 前 件 约束 ,因此 可 以 约束 到 四 个 常量 Victor, Sharon. Bob 和 Tom 
的 任意 组 合 。 这 里 使 用 记号 | «/Bob, y/ Sharon ji 代表 特定 的 变量 约束 ,即将 每 个 变量 映射 到 
一 个 常量 的 置换 。4 个 常量 对 此 初始 规则 可 产生 16 种 可 能 的 约束 。 而 约束 | xy Victor, y7 
Sharon1 对 应 的 是 正 例 约束 ,因为 训练 数据 中 包含 断言 GrandDaughier( Fictor，Sharon )。 在 
此 例 中 ,其 他 15 种 规则 人 允许 的 约束 (例如 ,约束 {x/Bob，y/Tom1) 组 成 了 规则 的 否定 论据 , 因 
为 训练 数据 中 没有 它们 相应 的 断言 。 

每 一 阶段 ,规则 的 评 居 基于 这 些 正 例 和 反例 变量 约 东 ,而 我 们 展 问 于 选择 的 是 拥有 较 多 下 
例 约 束 市 较 少 反例 约束 的 规则 。 当 新 文字 加 入 到 规则 中 ,约束 的 集合 将 改变 。 注 意 , 当 一 个 文 
字 加 入 后 , 它 引 入 了 一 个 新 变量 ,那么 规则 的 约 东 长 度 将 增长 (例如 ,者 Father(y,z) 加 入 到 上 
述 规则 ,那么 初始 的 约束 {x/ Victor, yr Sharon D ABR Ay E 45 HI i Victor, yf Sharon, zs/ 
Bob1)。 还 要 注意 ,如 果 新 变量 可 约束 到 多 个 不 同 的 常量 ,那么 与 扩展 后 规则 相 匹 配 的 约束 的 
数目 将 大 于 与 原始 规则 匹配 的 数目 。 

FOIL 使 用 评 钴 画 数 以 展 计 增加 新 文字 的 效用 , 它 基 于 如 人 新 文字 前 后 的 正 例 和 反例 的 
”约束 数目 。 更 精确 地 讲 , 考 虚 某 规则 R 和 一 个 可 能 被 加 到 员 的 规则 体 的 候选 文学 上 。 令 R 
为 加 入 文字 工 AMN R 后 生成 的 规则 。 Foil _Gain( L, R) 的 值 定义 为 : 


_ pl | po 
Foil _ Gain( L, R) = {loge PTA lop mead (10.1) 


其 中 , po 为 规则 只 KERMA RRA. no 为 R 的 反例 约束 数目 , pl 是 规则 R 的 正 例 约束 
数 , ni 为 规则 R' 的 反例 约束 数 日 。 最 后 ,: 是 在 加 入 文字 上 到 RR 后 仍旧 能 覆盖 的 规则 RR 的 正 
ARMA. SMA 工 引入 了 一 个 新 变量 到 RR 中 时 ,只 要 在 R' 的 约束 中 的 某 些 约束 扩展 本 
原始 的 约束 ,它们 仍 热 能 寝 覆 盖 。 


该 foil Gain 函数 可 以 用 信息 论 来 简单 地 解释 。 按 照 信 息 论 的 理论 , - log, 一 一 是 为 


Pat no 
了 对 规则 R 能 改 盖 的 任意 正 例 约束 编码 所 需 的 最 小 位 数 。 与 此 相似 , - log a 是 对 规 现 


R' 能 覆盖 的 任意 正 例 约束 编码 的 最 小 位 数 。 由 于 上 BR RH EAA PR BE R P 
的 约束 , Foil Get 工 ,六 ?可 被 看 作 : 为 了 编码 R 的 所 有 正 例 约束 的 分 类 所 需 的 全 部 位 数 由 


FL 带 来 的 减少 。 
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10.5.3 学 习 递 归 规 则 集 


在 上 面 的 讨论 中 ,我 们 忽略 了 加 人 到 规则 体 中 的 子 句 为 目标 谓词 本 刁 ( 即 在 规则 头 中 出 现 
的 谓词 ) 的 可 能 性 。 然 而 ,如 果 在 Predicates 的 输 人 列表 中 包含 目标 谓词 ,FOIL 在 生成 候选 文 
字 时 必须 考虑 它 。 这 人 允许 它 产生 递归 的 规则 一 一 即 在 规则 头 和 规则 体 中 使 用 相同 的 谓词 。 例 
如 ,回忆 Ancestor 关系 的 递归 定义 表示 如 下 : 

IF Parent( x,y) THEN Ancestor x, y) 

IF Parent(x,z) A Ancestor z, y) THEN Ancestor (x,y) 

给 定 适 当 的 训练 样 例 集 ,这 两 个 规则 的 学 习 可 按照 类 似 于 上 面 GrandDaughter WR. 
注意 ,只 要 Ancestor QE Predicates 列表 中 ,后 者 决定 了 在 生成 新 文字 时 要 考虑 的 谓词 ,上 
面 第 二 个 规则 就 包含 在 FOIL 的 每 次 搜索 中 。 当 然 该 特定 规则 是 否 能 被 学 习 取 决 于 这 些 特 定 
的 子 句 在 FOIL 的 仿 殊 搜索 渐进 特殊 的 规则 中 能 否 比 其 他 候选 评分 更 硕 。Cameron-Jones & 
Quinlan(1993) 讨 论 了 玫 个 例子 ,其 中 FOIL 能 成 功 地 发 现 递 归 的 规则 和 集 。 他 们 还 讨论 了 可 能 
产生 的 重要 问题 ,比如 如 何 避 免 在 学 习 规 则 集中 产生 无 限 递归 。 


10.5.4 ”FOIL 小结 


概括 地 说 ,FOIL 扩展 了 CN2 的 序列 覆盖 算法 ,处 理 类 似 于 Hom 子 句 的 一 阶 规则 学 习 问 
题 。 为 学 习 这 样 的 规则 ,FOIL 执行 一 般 到 特殊 搜索 ,每 步 增加 一 个 新 的 文字 到 规则 前 件 中 。 
新 的 文字 可 为 规则 前 件 或 后 件 中 已 有 的 变量 ,或 者 为 新 变量 。 它 在 每 一 步 中 使 用 式 (10.1) 中 
的 Foil Gain 函数 在 候选 新 文字 中 进行 选择 。 如 果 新 文字 可 指向 髓 标 谓词 ,那么 原则 上 ， 
FOIL 可 学 习 到 递归 规则 集 。 昌 然 这 产生 了 另 一 复杂 性 , 即 避 人 综 规 则 集 的 无 限 递归 ,但 FOI. 
已 在 某 些 情况 下 成 功 地 用 于 学 习 递 归 规 则 集 。 

在 训练 数据 无 噪声 的 情况 下 ,FOIL 可 持续 地 增加 新 文字 到 规则 中 ,直到 它 不 覆盖 任何 反 
例 为 止 。 为 处 理 有 上 曲 声 数据 ,搜索 的 终止 涡 要 在 规则 精度 .覆盖 度 和 复杂 性 之 间 做 出 折 中 。 
FOIL 使 用 最 小 描述 长 度 的 方法 终止 规则 增长 ,新 的 文字 只 在 它们 的 措 述 长 度 短 于 它们 所 和解 
释 的 数据 的 措 述 长 度 时 才 被 加 人 。 该 策略 的 细节 由 Quinlan(1990) 给 出 。 另 外 ,FOIL 对 每 个 
学 到 的 规则 进行 后 修剪 ,使 用 与 第 3 章 决 策 树 中 相同 的 规则 后 修剪 策略 。 


10.6 ”作为 逆 演 绎 的 归纳 


归纳 逻辑 编程 衣 另 一 种 完全 不 同 的 途径 , 它 基于 一 个 简单 的 事实 ; 即 归 纳 是 演绎 的 逆 过 程 。 
一 般 来 说 ,机 器 学 习 涉 及 的 是 如 何 建立 能 解释 观察 数据 的 理论 。 给 定 某 些 数据 D 和 一 些 不 完整 
的 背景 知识 8, 学 习 过 程 可 被 描述 为 生成 一 个 假设 kh, ES 有 一 起 解释 了 D PREH BRE 
如 通常 那样 训练 数据 D 为 训练 样 例 的 集合 ,每 个 样 例 形式 为 (x;，f(xi)》。 这 里 x; 代表 第 i 个 
训练 实例 , 面 At zi) 代表 它 的 目标 值 。 那 么 学 习 过 程 就 是 为 了 发 现 一 个 假设 无, 使 每 个 训练 实例 
x; 的 分 类 fC MEHE Ava; 的 描述 及 系统 知道 的 任意 背景 知识 B 中 演绎 派生 。 
(Via fla EE DIBARA x;) H fix) (10.2) 
表达 式 y LY 读 作 “Y MX 中 演绎 派生 ” ,或 者 为 ^* MA (ental) Y"。 式 (10.2) 摘 述 了 
学 习 到 的 假设 必须 满足 的 约束 , 即 对 每 个 训练 实例 *; ,目标 分 类 f(a, ALA BA 和 x, 中 
WARE. 
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考虑 一 个 例子 ,其 中 待 学 习 的 自 标 概念 是 "两 个 人 《u,v) 中 vw HEFE T”, Cm TIAR 
Child( u,v)。 假定 纵 出 了 单个 正 例 Child ( Bob，Sharon), 其 中 实例 描述 为 文字 Male 
( Rob), Female( Sharon) 和 atherfSparon ，Bob)。 进 一 步 假 定 有 背景 知识 Parent( u,v} 
Father( u,v)。 可 将 此 情形 按 式 (10.2) 撒 述 如 下 : 


xy! Male( Bob), Female( Sharon), Father( Sharon, Bob) 
fixi): Childi Bob, Sharon) 
B: Parent (u,v) Father u,v) 


在 此 情况 下 ,许多 假设 中 满足 约束 (BA 入 A x;) 上 F(x;) 的 两 个 假设 为 ; 

hy: Child( u,v) -Father v, u) 

ho: Child( u,v} ~Parent(v,u} 

注意 ,目标 文字 Child( Bob, Sharon) EH hi ^A RR, FERRARA B, ROUTE 
设 ho ,情况 有 些 不 同 。 目 标 Child (Bob, Sharon) EM BA h Ax; 中 派生 ,而 不 是 单独 的 ha 
Ax, 中 派生 。 该 例 说 明了 背景 知识 的 作用 , 即 针 对 给 定 的 训练 数据 扩展 可 接受 的 假设 集合 。 
它 还 说 明 新 的 谓词 (如 , Pareni ) 怎 样 引 人 到 假设 (如 ,有 >) 中 ,即使 此 请 词 不 在 原来 的 实例 x, H 
述 中 。 这 一 基于 背景 知识 扩展 谓词 集合 的 过 程 , 通 尝 称 为 建设 性 时 摧 (construetive induction)。 

式 (10.2) 的 意义 在 于 它 把 学 习 问 题 冒 于 演绎 推理 和 形式 还 辑 的 框架 之 下 。 对 于 命题 逻辑 
和 一 阶 逻 辑 , 有 一 些 已 理解 得 很 好 的 算法 可 自动 演绎 。 有 趣 的 是 ,有 可 能 利用 演绎 推理 的 逆 过 
程 ,以 使 归纳 汉化 的 过 程 自动 化 。 对 “归纳 可 由 反 转 的 演绎 实现 ”这 一 观点 的 洞悉 首先 来 目 19 
世纪 的 经 济 学 家 W.S. Jevons, E P): 

归纳 实际 上 是 演绎 的 道 操 作 , 而 且 不 能 想像 其 中 一 个 没有 时 , 男 一 个 会 存在 。 因 此 不 存在 
哪 一 个 更 重要 的 问题 。 谁 会 问 加 法 和 减法 中 哪 一 个 是 比较 重要 的 数学 操作 呢 ? 同时 ,一 个 操 
作 和 它 的 逆 操 作 之 间 , 难 度 有 很 大 的 差异 ;…… 必 须 头 认 ,归纳 分 析 在 难度 和 复杂 度 方面 都 远 
远大 于 任何 演绎 问题 …… (Jevons 1874) 

本 章 的 剩余 部 分 将 探讨 这 种 把 归纳 看 成 着 演绎 的 观点 。 我 们 在 这 里 所 感 兴趣 的 是 一 般 问 
LID I+ — it 36 IEF (inverse entailment operator)。 一 个 逆 涵 莹 算 子 OCB, D) AUR 
数据 DD = | < x;，f(x;) > | 和 背景 知识 8 作为 输入 ,并 且 输 出 一 个 假设 h WERO. 2). 

OCB, D)=h 其 中 (YCxi, fD EDIB ARA xi) F fC) 
当然 会 有 很 多 不 同 的 假设 AE 《xi, f(a) E D)CBARAs,) 上 f(xi)。 Œ ILP 中 
选择 假设 的 常用 启发 式 规则 依赖 最 小 描述 长 度 准 则 ( 见 6.6 节 )。 
将 学 习 任 务 形 式 化 为 寻找 一 个 假设 h 使 其 满足 (¥ (a fle) € DICBARA x) Ff 
(x;) ,有 许多 有 吸引 力 的 特点 ; 
o 这 种 公式 包含 了 一 种 普遍 的 学 习 定义 方法 , 即 寻 找 某 个 一 般 概念 , 它 与 给 定 的 训练 样 例 
相 拟 合 。 其 中 训练 样 例 对 应 没有 背景 知识 BORA 

e 此 公式 通过 引 人 背 景 知识 如 ,可 以 对 一 个 假设 何 时 可 被 称 作 “ 拟 合 "训练 数据 进行 更 充 
分 的 定义 。 至 此 为 止 ,我 们 一 直 都 仅仅 基于 假设 和 数据 的 描述 来 确定 一 假设 (如 ,神经 
网 络 ) 是 否 拟 合 数据 ,而 不 依赖 于 学 习 的 尾 务 领域 。 相 反 , 这 种 形式 允许 领域 特定 的 背 
景 信息 B 成 为 “ 拟 合 "定义 的 一 部 分 。 确 切 地 讲 , RECA BARA zi PHAR 
生 时 , 拟 合 训练 样 例 Axi, 六 xi 
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e 通过 引信 背 景 知识 B BARERA YAAA ARREARS F h 的 搜索 ,而 不 是 只 搜 
索 司 法 上 合法 的 假设 空间 。 上 下面 章节 中 摘 述 的 逆 归 纳 过 程 就 以 这 种 形式 使 用 了 萌 景 知识 。 
同时 ,按照 这 种 公式 的 归纳 还 并 编 程 遇 到 了 几 个 实 不 上 的 困难 。 

ext y (a. fla dE DICBARAs;) Ffa D BERS LAREA A Rea, Na 
在 于 ,该 表达 式 不 允许 在 观察 到 实例 x; 和 其 目标 秆 f(x;) 中 出 现 差 错 的 可 能 性 。 这 样 
的 差错 可 能 产生 对 h Ap RHR. RE, 多数 形式 逻辑 框架 完全 没有 能 力 在 给 
定 不 一 致 断言 时 区 分 出 真 和 假 来 。 

$ 一 阶 逻辑 语言 的 表征 力 太 强 ,而 且 满足 (Y4xziy fe) DICBARAs;) | f(x;) 的 很 
设 数 量 太 多 ,以 至 于 假设 空间 的 搜索 在 一 般 情形 下 难以 执行 。 许 多 近期 的 工作 已 寻求 
受 限 形式 的 一 阶 表 达 式 或 其 他 二 阶 表 达 式 ,有 目的 是 改进 假设 空间 搜索 的 易 处 理性 。 

9 尽管 直觉 上 背景 知识 可 有 助 于 限制 假设 的 搜索 ,在 多 数 ILP 系统 中 (包括 所 有 本 章 讨论 
的 ) ,假设 空间 搜索 的 复杂 度 会 随 着 背景 知识 的 增加 而 增高 (然而 ,第 11 章 和 第 12 章 中 
一 些 算 法 使 用 背景 知识 来 减 小 而 不 是 增加 样本 复杂 度 )。 

下 一 节 讨论 一 个 很 普遍 的 逆 少 蕴 算 子 , 它 通 过 反 转 的 演绎 推理 规则 来 构造 假设 。 


10.7 EHA 


自动 演绎 的 一 般 方 法 是 用 Robinson( 1965 ) Eih Aia 2 ALA (resolution me)。 归 纳 规则 是 
一 阶 逻 辑 中 一 个 合理 且 完 备 的 泪 绎 推理 规则 。 因 此 ,可 以 想到 这 样 的 问题 :是 否 可 以 通过 反 转 
归纳 规则 来 形成 道 涵 草 算 子 。 回 答 是 肯 征 的 ,而 且 正 是 这 个 算 子 形成 了 Cicor 程序 的 基础 。 
(Muggleton & Buntine 1988), 

介绍 归纳 规则 最 容易 的 方法 是 以 命题 表示 的 形式 , 它 可 以 被 扩展 到 一 阶 表示 中 。 令 工 为 
任意 一 个 命题 文字 HS PAR AERTS. IH. 


P y L 
TAL V R 
P V R 


它 可 理解 为 :给 定 线 上 的 两 个 子 句 ,得 到 线 下 的 子 名 。 直 觉 上 归纳 规则 是 理所当然 的 。 给 
CATER PY 上 和 一 工 V 玉 ,显然 工 或 一 工 中 必 有 一 个 为 假 。 因 此 , 产 或 及 中 必 有 一 个 为 
真 。 因 此 结论 PVR 肯定 是 满足 的 。 

命题 归纳 算 子 的 一 般 形 式 在 表 10-5 中 描述 。 给 定 两 个 子 句 C1 和 C ,归纳 算 子 首先 确定 
文字 上 是 否 以 正文 字形 式 出 现在 一 个 于 句 中 ,并 以 俩 文字 形式 出 现在 另 一 子 名 中 。 然 后 得 到 
如 上 公式 中 的 结论 。 例 如 ,图 10-2 左 便 的 归纳 算 子 。 给 定子 名 Cl 和 Ca ,第 一 步 确定 文字 L 
= 一 KnowMaterial, CEE C, PAR, WEM RRS (7 KnowMaterial) = Know Materi- 
al 在 C2 中 出 现 。 所 以 铺 论 是 一 子 句 , 甚 形式 为 文字 Ci- | Li = PassExam MC- iL] 
= 一 Study 的 联合 。 举 另 一 个 例子 ,应 用 归纳 规则 到 子 旬 Cl=4VBYCY 一 六 和 Ca= 一 
BN E YF BBIGRATAAVCV ODVEVF. 

表 10-5 归纳 算 子 (命题 形式 ) 


1. 给 定 初始 子 句 C 和 CATA cC 中 寻找 一 个 文字 LHR LEC, 中 
2. 通过 合并 C 和 Ca 中 的 除了 工 和 一 二 站 的 所 有 文字 ,形成 归 靖 式 C。 更 精确 地 ,出 现在 结果 C 中 的 文字 集 谷 为 : 
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(3) 
Cato, = EDUC -1m Lt) 

其 中 ,LU 表示 集合 并 ," - "表示 集合 莽 

注 ; 蛤 定子 自 C P Coa PREP RR H- THY CHC AC, FEC, 
<n V oaa 
C: PassExam ‘\f C Enowhinerial E ‘PasrErem WY “Knowharerial 
E 

左边 为 应 用 归纳 规则 (演绎 的 } 从 给 定 于 名 c A c PERETE Cc. GHAR RBA AA) Me 
和 Cy 中 推论 出 Cra 


图 10-2 归纳 和 道 归纳 的 例子 


RA + AAR FERRER ATA RBA ST 0(C，C1)。 一 般 来 说 ， 
逆 涵 草 算 子 必 须 在 给 定 归 纳 式 和 和 一 初始 子 句 Ci 时 推导 出 男 一 初始 子 句 C;。 考 虑 一 个 例 
子 , 给 定 归 纳 式 C= A VY 8 且 初 始 子 句 C = BV D, MAHESH TA C 以 使 Ci A C Fe? 
首先 , 广 意 由 归纳 算 子 的 定义 ,任意 出 现在 C 中 但 不 在 C 中 的 文字 必须 已 在 Ca PUR. £ 
这 个 例子 中 , 它 表 示 Ca 必须 包含 文字 4。 其 次 ,在 C 中 出 现 但 不 在 C 中 的 文字 必 为 归纳 规 
则 移 去 了 的 文字 AUPE ae eae Ca 中 。 在 此 例 中 , 它 表 示 C, 必须 包含 文字 OD, 
因此 C, = 4A VY 一 D。 读 者 可 以 很 容易 地 验证 ,应 用 归纳 规划 到 Cl 和 C 确实 产 牛 了 所 希望 
的 归纳 式 C。 f 
注意 在 上 例 中 5, 有 另 一 种 可 能 的 解 。 确 切 地 讲 , C 可 以 是 更 特殊 的 子 句 AV 一 DV B. 
此 解 与 第 一 个 解 的 不 同 在 于 C, 中 包含 了 一 个 Ci 中 出 现 的 文字 。 从 中 可 得 到 的 一 般 论 点 在 
于 , 道 归 纳 是 不 确定 的 , 即 可 能 有 对 个 子 句 C; 使 Cl 和 Ca 产生 归纳 式 C。 在 其 中 进行 选择 的 
一 个 启发 式 方法 为 偏好 更 短 的 子 甸 ,与 此 相应 的 是 :假定 C2 与 Ci 没有 共同 的 文字 。 如 果 引 
入 这 种 对 短 子 句 的 偏好 ,对 逆 妇 纳 过 程 的 一 般 描述 见 表 10-6。 


家 10-6 MARAT ( PMX) 





1 Sea 0| 和 己 , 寻 找 一 个 文字 LLEMRET SC, 中 但 不 出 现在 人 中 
2. BUTS PURSE ERR TPA Ca: 
Ca=(C-(C- EU 一 | 





注 ; PRAT CHC, CHEM CLR CAC, FC. 


PETA AREF Gk A FE ee A OR, ME, YAA 
TERERAA KAE AB I. PR A 
盖 算 法 ,循环 地 以 这 种 方法 学 习 Hom 子 句 集 。 在 每 次 循环 中 ,算法 选择 没有 被 以 前 学 习 到 的 
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子 句 覆盖 的 一 个 训练 样 例 ( zx;, f(xi))。 然 后 应 用 归纳 规 旭 来 生成 满足 (BA RA x) FF f(x) 
的 候选 假设 ,其 中 B 为 背景 知识 如 上 以 前 循环 中 学 到 的 任意 子 句 。 注 意 , 这 是 一 个 样 例 圣 
动 的 搜索 , 闲 为 每 个 候选 假设 的 建立 是 为 了 覆盖 一 特定 样 例 。 当 然 如 果 存 在 多 个 候选 假设 , 那 
么 在 其 中 选择 的 策 巾 是 选取 在 其 他 样 例 上 也 有 最 高 精度 的 假设 。CrcoL 程序 使 用 了 结合 这 种 
序列 覆盖 算法 的 道 归 纳 ,通过 它 与 用 户 进行 交互 ,获得 训练 样 例 并 引导 它 在 可 能 的 归纳 推理 步 
RE AS el Paws. RI CIGoL 使 用 了 一 阶 表示 而 不 是 命题 表示 。 下 面 我 们 拱 述 为 处 理 
~- 阶 表示 所 需 对 归纳 规则 的 扩展 。 


10.7.1 一 阶 归 纳 


归纳 规则 可 以 很 容易 地 扩展 到 一 阶 甫 示 。 如 命题 逻辑 中 一 样 , 它 需 要 输入 两 个 子 句 ,输出 
第 三 个 子 句 。 它 与 命题 归纳 的 关键 不 向 在 于 ,这 一 过 程 如 今 要 基于 合 一 (unifying) 置 换 操作 。 
定义 置换 (substitution) 为 变量 到 项 的 任意 映射 。 例 如 ,置换 8 = 1x/Bob，y/21 表 示 变 量 
x 替换 为 项 Bob ,而 变量 y 替换 为 项 z。 使 用 符号 wo 代表 应 用 到 一 置换 9 RREA W 的 
结果 。 讽 如 ,车 上 是 文字 Father x, 下), 且 日 为 上 述 的 置换 , 刚 L9 = Fathert Bob, Bill). 
如 果 LG = L529, 则 称 8 为 两 文字 上 和 L 的 合 一 置换 (unifying substitution). HMA 
Liz Father x,y), L- = Father { Bill, z), H 0 = | x/ Bill, zy) AGEL, ALAE 
Bim ,因为 L8 = £20 = Father( Bill, y)o 合 一 置 摸 的 意义 是 ;在 归纳 的 命题 形式 中 ,两 于 何 
C A CG 的 归纳 式 的 获得 是 通过 确定 CPAP LA OL CL, 中。 在 一 阶 归纳 中 , 它 推 
广 为 从 子 句 C 中 寻找 一 文字 L 和 在 Cs 中 寻找 文字 La ,使 得 可 找到 对 于 L 和 一 上 ; 的 某 合 
一 置换 8 即 ,使 29= 一 229)。 归 纳 规则 然后 按 下 而 的 等 式 建立 归纳 式 C: 
C=(C,-{£,)/)@UCC,-1£4))6 (10.3) 
上 归纳 规则 的 一 般 描 述 见 表 10-7。 为 说 明 它 ,假定 C1 = White (x) Swan (x) G = Swan 
( Fred )。 为 应 用 归纳 规则 ,首先 将 Ci 等 价 地 表示 为 子 句 的 形式 C1 = White(x) Y Swan(x). 2 
后 可 应 用 归纳 规则 。 第 一 步 , 先 找到 Ci 中 的 文字 Li = 一 Swan{x) 和 Cz 中 的 文字 L= Swan 
(Fred)。 如 果 选 择 合 一 置换 8= | x/ Fred) , 则 两 个 子 句 满足 L10 = 一 L296 = 一 Swant Fred). A, 
结论 C 为 CI- | D8 = White( Fred HIC- | Lat) = Ø, EN C= Whitel Fred). 


#10-7 归纳 规则 (一 阶 形 式 | 


1. 寻找 C 中 的 文字 L,C 中 的 文字 L, URE 9 ,使 得 L186= Ld 
2. 通过 包含 C0 和 C28 PRT 1,6 和 一 上 上 28 点 外 的 文字 ,形成 归纳 式 5。 更 精确 地 讲 , 出 现在 结论 C 中 的 文字 
集合 为 : 





TT 


C=C- iE bee, -— 1 £256 


10.7.2 道 归纳 :一 阶 情况 


我 们 可 以 用 分 析 法 推导 出 逆 归 纳 算 子 ,方法 是 通过 对 定义 归纳 规则 的 式 (10.3) 进 行 代数 
操作 。 首 先 ,注意 式 (10.3) 中 的 合 一 置换 9 可 被 惟一 地 分 解 为 91 和 9,, 其 中 8= 919,,9 AA 
涉及 子 句 C 中 变量 的 所 有 置换 ,而 ;包含 涉及 C, 中 变量 的 所 有 置换 。 该 分 解 的 合理 性 在 
于 C 和 C, 总 是 开始 于 不 同 的 变量 名 (因为 它们 是 不 同 的 全 称 量 化 陈述 )。 使 用 6 的 这 种 分 
解 ,可 将 式 (10.3) 重 新 表达 为 : 
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C=(€,-7£,))6,UCC,-{ 2,8, 

记 住 ,这 里 的 减 导 “- "RERS, FRR AA RM CG 中 没有 与 

C, 共同 的 文字 (表示 偏好 最 短 的 0 子 句 ) ,那么 可 将 上 式 写 为 : 
C-(Ci- İbis (02-1 ht) a 

最 后 可 使 用 归纳 规则 的 定义 Li = 一 上 L1619,-1, 解 出 0, 来 得 到 ; 

AA: 

Cy=(C-(€,-§2,1)0)6. Ut L001 (10.4) 

(10. Rw TBA), BO FE RIE eB ato SE ae HE BY. 
确切 地 讲 ,在 应 用 它 的 过 程 中 ,一 般 可 找到 待 归 纳 的 子 句 Ci 和 置换 o 和 5 HMR, t 
一 组 选择 都 产生 一 个 不 同 的 C; 解 。 

10-3 显示 了 此 逆 归 纳 规则 应 用 在 一 个 简单 例子 上 的 多 个 步 又 。 在 画 中 ,我 们 希望 根据 
给 定 的 训练 数据 D = GrandChild (Bob, Shannon) 和 背景 信息 B = | Father ( Shannon, 
Tom), Father( Tom ，Bop )| 学 习 到 目标 谓词 GrandChild(y, zx) 的 规则 。 考 虚 图 10-3 中 逆 归 
纳 树 的 最 下 面 一 步 。 这 里 ,我 们 设置 结论 C 为 训练 样 例 GrandChild (Bob, Shannon), HHM 
背景 信息 中 选择 子 句 Cl = Father( Shannon, Tom). AMABIAART ,对 于 文字 L 只 有 
一 种 选择 , 称 为 Father (Shannon, Tom). (RE RIMES BR 0, = 11 H 017! = | Shan- 
non/x|。 在 此 情况 下 ,得 到 的 子 名 CG AFA -Ci 1215) g) 6.7) = (C0)07 = 
GrandChild( Box , x) 和 子 句 1 一 上 9010, = 7 Father (x ,Tom ) 的 联合 。 因 此 结果 为 子 句 
GrandChild( Bob, x) V ~ Father x Tom), REN SA) CrandChild( Bob, x)~— Fatherl x, 
Tom )。 注 意 这 个 一 般 规 则 与 C, 一 起 泣 蕴 了 训练 样 例 GrandChild( Bob, Shannon). 

以 相似 的 方式 ,推理 得 到 的 子 名 可 作为 第 二 个 归纳 步 中 的 结论 C, 如 图 10-3 所 示 。 在 这 
两 步 中 的 每 一 步 中 都 可 能 有 多 个 输出 ,这 取决 于 对 置换 的 选择 (见习 题 10.7)。 在 图 10-3 的 
例子 中 ,特定 的 选择 产生 了 直觉 上 可 满足 的 最 终 子 名 GrandChild (y, x) Father(x,2z) A 
Father((z,Yy)o 


Father (Tom, Bob) ‘GrandChild( yc) vo Father(2.2z) v ^ Father(zy) 


(Boky. Tom) 


Father (Shannon, Torts} GrandChild( Rob 9) w = Father(x, Tom) 


[Shannon] 


GrandChild( Bob, Shannon) 


其 中 带 方 框 的 子 名 为 推理 步 的 结果 。 在 每 一 步 , 5 是 位 于 底部 的 子 句 ,6 BMT. C 是 右边 带 方 框 的 子 
名 。 在 这 两 个 推理 步 中 ,8, PESER DO EERE 3 下方。 注意 最 终 的 结论 (最 右上 角 的 带 方 柜子 
Æ Hom fF} CrandChild( y, xj Father(x, g) A Father(2z, IRAHA 


图 10-3 多 步 逆 归 纳 


ww ai bbt.com PO0O0O0D0D0OO0O 





214 HEFT 


10.7.3 HAAN 


概括 地 讲 , 道 归纳 提供 了 一 种 一般 的 途径 以 自动 产生 满足 约束 (BAhA x) H fE DRE 
设 hh。 这 是 通过 逆转 式 (10,3) 给 出 的 一 般 归纳 规则 得 到 的 。 从 此 归纳 规则 中 解 出 子 句 Ca, 
式 (10.4) 中 的 道 归 纳 规则 很 容易 推导 出 。 

给 定 一 组 开始 子 句 ,可 通过 重复 应 用 此 道 妇 纳 规 则 生成 多 个 假设 。 注 意 , 逆 归纳 规则 具有 
一 个 优点 , 它 只 生成 满足 (BAhA xi) F F x; ) 的 假设 。 相 反 ,FOIL 的 生成 再 测试 {generate _ 
and __test) 搜 索 在 每 一 搜索 步 生 成 多 个 假设 ,包括 一 些 不 满足 此 约 东 的 。 然 后 FOL 通过 考虑 
数据 D 来 在 这 些 假 设 中 做 出 选择 。 由 于 这 一 差异 ,我 们 可 期 望 基于 道 归 纳 的 搜索 更 有 针对 性 
月 更 有 效 。 然 而 实际 未 必 如 此 。 一 个 原因 是 逆 归 纳 算 子 在 任意 一 步 生 成 它 的 假设 时 ,只 能 考 
虑 可 用 数据 中 的 一 小 部 分 。 而 FOIL 考虑 所 有 的 可 用 数据 ,在 其 按 语法 生成 的 假设 中 进行 选 
择 。 使 用 道 涵 冀 和 使 用 生成 再 测试 两 种 搜索 荣 上 略 的 差别 仍 是 一 个 研究 主题 。Sriniyasan 等 
(1995) 提 供 了 对 这 两 种 方法 的 实验 性 比较 。 


10.7.4 泛 化 .9- 包 容 和 涵 切 


前 一 节 措 出 了 归纳 和 道 涵 冀 之 间 的 联系 。 由 于 以 前 者 重 于 讲述 在 假设 搜索 中 的 一 般 到 特 
RF ,那么 有 必要 研究 more _general than 关系 和 逆 涵 冀 之 间 的 联系 。 为 说 明 这 种 关系 ,考虑 
如 于 的 定义: l 

@ more general .than ;第 2 章 中 的 more _general than or equal to KA ZEAN: 

2 XE AB ARE hy A a, Cx) ,我 们 称 Ap A, 当 且 仅 当 (YY way ejh; (x) E 
> 关系 被 用 于 许多 学 习 算法 中 以 引导 假设 空间 的 搜索 。 

© 0- ECO- subsumption): SEAT TA C; 和 全 ,它们 的 形式 都 是 殖 YLIV. .YE 其 

中 五 为 一 正文 字 ,而 上 为 任意 文字 。 称 子 句 Co- 包容 子 句 Cr ,当月 仅 当 存在 一 个 是 
Hit C8c Ci( 这 里 我 们 将 任意 子 句 C 描述 为 其 析 取 式 中 各 文字 的 集合 )。 该 定义 见 
Plotkin( 1970) 。 

© Ai (entailment): FRAT FA C 和 CC, 于 句 C 被 称 为 涵盖 于 名 Ci( 写 作 C FC) 

ERX G AG 中 演绎 派生 。 

这 三 个 定义 之 间 有 什么 内 在 联系 ? BA Be, 的 定义 重新 表示 为 一 阶 形式 ,如 男 两 个 定 
义 一 样 。 如 果 对 某 目 标 概念 “(x ) 考 虑 一 布尔 值 假 设 h(x), 其 中 h(x) 表示 为 文字 的 合 取 , 那 
人 么 可 重新 表示 此 假设 为 子 句 ; 

e(x)*-h€x) 

3% FAR) AE YD PaoLoc 解释 , 即 x 若 不 能 被 证 明 为 正 鲍 时 , 则 s 被 分 类 为 反例 。 因 
此 ,可 看 出 前 面 定义 的 > 。 应 用 于 Horn 子 铝 的 前 件 (或 规则 体 )。Heorn 子 句 隐 合 的 后 件 为 目 
标 概念 cf x )。 

-F 定义 和 上 包容 定义 之 闻 的 关系 是 什么 ? 注意 ,如 果 hi =g ha, WFAA Ciel) hy 
(xz ) 是 & 包容 子 句 Cela) hax). EHH, EETA AEREE, 0- 包容 也 可 成 
立 。 例 如 ,于 面 的 情形 中 子 句 4 ORAL HB: 

A: Mother(«,y) < Father(x, z)A Spouse(z, y) 

B: Mother(x, Louise) + Father(x, Bob) A Spouse( Bob, y) A Female(x) 
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因为 如 果 选 择 9= |y/ Louise, z/ Bob} Il) AOC B。 这 里 的 关键 区 别 在 于 > ， BARET 
陆 个 子 句 的 头 部 是 相同 的 ,而 人 包容 可 在 子 和 句 头 部 不 同时 成 立 。 

最 后 CAFE REN ARREA. E, MRP HA 六 包容 子 句 8, 则 4 rR, Rm E 
们 可 找到 这 样 的 4 AB EA 上 号 但 4 HAGRA BS. ARTS: 

A: Elephant( father ofl x)) «—Flephant( x ) 

B: Elephant father _of\ father _of{y))) + Flephant(y) 

FEF , father _of (x) ABR, ILE r 的 父亲 。 注 意 虽 然 B 可 由 A 得 到 证 明 , 却 不 存在 
置换 8 使 A 包容 上 8。 

如 这 些 例 子 所 示 ,前 面 对 more _ general _than 的 定义 是 A 包容 的 一 种 特殊 情况 ,而 Oa 
容 又 是 洱 昔 的 特殊 情况 。 因 此 ,通过 谤 化 和 特 化 假设 来 搜索 殷 设 空间 比 用 一 般 的 道 涵 董 算 子 
来 搜索 更 为 局 限 。 遗 憾 的 是 , 逆 少 蕴 这 种 最 一 般 的 形式 可 产生 无 法 处 理 的 搜索 。 然 后 中 间 的 
98- 包容 的 定义 提供 了 和 位 于 more _ general _ thon AAPA RS. 


10.7.5 “PRoOecL 


虽然 对 于 生成 候选 假设 , 逆 妇 纳 是 一 种 很 吸引 人 的 方法 。 在 实 戚 中 它 很 容易 导致 候选 假 
设 的 组 合 爆炸 。 另 一 种 途径 是 只 使 用 道 涵 蕴 来 生成 一 个 最 特殊 假设 , 它 与 背景 信息 一 起 涵 苗 
观察 的 数据 。 然 后 ,这 个 最 特殊 假设 可 用 于 确定 假设 空间 的 一 般 到 特殊 搜索 边界 ,与 FOIL 中 
使 用 的 搜索 一 样 ,但 多 了 一 个 限制 : 具 考 目 比 此 边界 更 一 般 的 假设 。 该 方法 被 用 于 PRocor 系 
统 , 它 的 算法 可 概述 如 下 : 

1) 用 户 指定 使 用 一 个 受 限 的 一 阶 表示 语言 为 假设 空间 A. RR CRS A” 

(mode declaration) 来 描述 , 它 允 许 用 户 指定 要 考虑 的 谓词 和 函数 符号 ,以 及 它们 的 参 
考 类 型 和 格式 。 

2) PRocoi 使 用 序列 覆盖 法 来 从 H 中 学 习 一 组 覆盖 数据 的 表达 式 。 对 于 每 个 还 没 被 这 
些 学 到 的 表达 式 覆 盖 的 样 例 (x;, f( x1) ,和 首先 寻找 H 中 最 特殊 的 假设 ,使 ( B A h, 
As) 上 f(x;)。 更 精确 地 讲 , 它 先 找到 能 通过 应 用 次 归纳 规则 涵 蕴 f(x;) 的 假设 ， 
在 其 中 计算 出 最 特殊 的 假设 ,从 而 近似 得 到 六。 

3) 然后 PRocor 在 这 个 由 最 一 般 假 设 和 第 2 步 中 得 到 的 特殊 边界 A, 所 界定 的 假设 空间 
中 执行 了 一 般 到 特殊 搜索 。 在 此 假设 集合 中 , 它 导 找 有 最 小 描述 长 度 ( 由 文字 的 数量 
度量 ) 的 假设 。 该 部 分 的 搜索 是 由 像 4 “那样 的 启发 式 规 则 引导 的 , 它 的 修剪 操作 可 
在 没有 修剪 掉 最 短 假设 的 风险 下 进行 。 

PRocoL 算法 的 细节 见 Muggleton(1992,1995)。 


10.8 小 结 和 补充 读物 


本 章 的 要 点 包括 : 

e 序列 覆盖 算法 学 习 析 取 的 规则 集 , 方 法 是 先 学 习 单 个 精确 的 规则 ,然后 称 去 被 此 规则 要 
ABEN, AERA LER He. CRESTED RRA RE 
法 ,可 作为 由 顶 向 下 的 决策 树 学 习 算 法 (如 ID3) 的 替代 算法 。 决 策 树 算法 可 被 看 作 并 
行 覆盖 ,与 序列 禾 益 相对 应 。 

e 在 序列 到 善 咎 法 中 ,已 研究 了 多 种 方法 以 学 习 单个 的 规则 。 这 些 方法 的 不 同 在 于 它们 
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考查 规则 前 件 空间 的 策略 不 同 。 一 个 很 流行 的 .在 CN2 程序 中 使 用 的 方法 是 执行 一 般 
到 特殊 的 柱状 搜索 ,渐进 地 生成 并 测试 更 特殊 的 规则 ,直到 找到 一 个 足够 精确 的 规则 。 
其 他 的 方法 从 特殊 到 一 般 进 行 假设 搜索 ,使 用 样 例 驱 动 而 不 是 生成 并 测试 ,并 且 应 用 了 
不 同 的 统计 重度 的 规则 精度 来 指引 搜索 。 

@ 一 阶 规 则 集 ( 即 包含 变量 的 规则 ) 提 供 了 一 种 表征 能 力 很 强 的 表示 。 例 如 ,编程 语言 
PROLOG 使 用 一 和 阶 Horn 子 句 序列 来 表示 一 般 的 程序 。 因 此 ,学 习 一 阶 Born 子 句 的 问题 
也 常 被 称 为 邮 纳 逻辑 编程 的 问题 。 

$ 学 习 一 阶 规则 集 的 方法 是 将 CN2 中 的 序列 覆盖 算法 由 命题 形式 扩展 到 一 阶 表 示 。 该 

方法 在 FOIL 程序 中 例 示 , 它 可 学 习 包 括 简 单 递归 规则 集 在 内 的 一 阶 规则 集 。 

e 学 习 一 阶 规则 的 另 一 方法 基于 一 个 发 现 : 即 归 纳 是 演绎 的 道 转 。 换 言 之 ,归纳 的 问题 是 

导 找 一 个 假设 满足 下 市 的 约束 。 

CY Ca, flare DIBA hô x) F Fix) 
HEF, BMA RB x)... x。 是 训练 数据 DD 中 实例 的 描述 ,而 fC). fA 
训练 实例 的 目标 值 。 

$ 一 些 程序 遵循 了 归纳 是 演绎 的 逆转 的 观点 ,和 通 过 运用 熟知 的 演绎 推理 的 逆 算 子 来 搜索 

iz. BYR Cico 使 用 的 道 归 纳 是 归纳 算 子 的 逆转 ,而 归纳 是 普遍 用 于 机 器 定理 证 明 
的 一 种 推理 规则 。PaocoL 综合 了 逆 洱 寿 策 略 和 一 般 到 特殊 策略 来 搜索 假设 空间 。 

学 习 关 系 描述 早期 的 工作 包括 Vinston( 1970) 著名 的 程序 , 它 学 习 如 “areh "这样 的 概念 
的 网 络 式 描述 。Banerji (1964，1969) 的 工作 和 Michalski 的 AQ 算法 系列 工作 (如 , Michalski 
1969, Michalski et al. 1986) 是 最 早 将 逻辑 表示 用 于 学 习 和 问题 的 研究 之 一 。Plotkin(1970) 的 
洲 包 容 定 义 较 早 地 对 归纳 和 演绎 之 间 的 关系 进行 了 形式 化 。Vere(1975) 也 研究 了 学 习 的 逻辑 
表示 问题 , 且 Buchanan(1976) 的 META-DENDRAL 程序 可 学 习 分 子 结 构 中 可 在 质谱 仪 中 被 分 
割 的 部 分 的 关系 描述 。 该 程序 成 功 地 发 现 了 一 些 有 用 的 规则 ,它们 在 化 学 学 术 领 域 被 公布 。 
Mitchell( 1979) 的 蛋 选 消除 变型 空间 算法 被 应 用 子 阿 样 的 化 学 结构 的 关系 描述 。 

随 着 20 世纪 80 年 代 中 期 PRoLoc 语言 的 普及 ,研究 人 员 开 始 深 入 研究 Hom 子 句 表示 的 
关系 描述 。 较 旱 的 学 习 Hom 子 句 的 工作 包括 Shapiro (1983) 的 MIS 和 Sammut & Banerji 
《1986) 的 MARYIN。 这 里 讨论 的 Quinlan(1990) 的 FOIL 算法 出 现 后 ,很 快 随 之 产生 了 多 个 应 
用 一 中 规则 的 一 般 到 特殊 搜索 的 算法 ,包括 MFOIL (Dzeroski 1991)、FOCL (Pazzani et al. 
1991), CLAUDIEN(De Raedt & Bruynooghe 1993) 和 MARKUS(Grobelnik 1992), FOCL 算 
法 在 第 12 章 中 描述 。 

学 习 Horn 子 句 的 另 一 条 研究 路 线 是 通过 逆 洱 蕴 , 它 由 Muggleton & Buntine(1988) deh, 
其 基础 是 Sammut 点 Banerji(1986) 和 Muggleton(1987) 中 类 似 的 想法 。 此 路 线 上 最 近 的 工作 
着 重子 研究 不 同 的 搜索 策略 和 撒 制 假设 空间 坟 使 学 习 过 程 更 易 子 处 理 的 方法 。 例 如 , Kietz & 
Wrobel( 1992) (# AZ RDT 程序 中 规则 模式 来 限制 学 习 过 程 中 可 考虑 的 表达 式 的 形式 。 
Muggleton & Feng(1992) 讨 论 了 将 一 阶 表示 限制 为 矿 determinate 文字 。Cohen(1994) 讨 论 了 
GRENDEL 程序 , 它 接 受 一 个 显 式 的 语言 描述 输入 ,以 描述 子 句 体 ,从 而 允许 用 户 显 式 地 约 柬 
ize [el 

Lavrac & Dzeroski( 1994) 提 供 了 上 归纳 逻辑 编程 的 一 个 可 读 性 很 强 的 教材 。 近 期 其 他 有 用 
的 专题 报考 和 文集 包括 (Bergadano & Gunetti 1995, Morik et al. 1993, Muggleton 1992, 
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1995b).， 殉 robel(1996) 的 综述 也 提供 了 该 领域 的 一 个 好 材料 。Bratko & Muggleton (1995) 1 
述 了 近期 ILP 在 一 些 重 要 间 题 上 的 应 用 。 一 系列 的 ILP 方面 的 年 度 专 题 讨论 会 也 是 近期 研 
究 论 文 的 很 好 来 源 ( 如 ,De Raedt 1996)。 
习题 
10.1 考虑 一 个 如 CN2 那样 的 序列 覆盖 算法 和 一 个 如 ID3 那样 的 并 行 覆盖 算法 。 两 个 算法 
都 被 用 于 学 习 一 目标 概念 , 它 定义 在 由 n 个 布尔 属性 合 取 表示 的 实例 上 。 如 果 1D3 学 
习 到 深度 为 d 的 平衡 决策 树 , 它 将 包含 24 - 1 个 不 周 的 决策 结 点 ,而 且 在 建立 其 输出 
假设 时 做 出 24 - 1 次 不 同 选择 。 如 果 该 树 被 重新 表示 为 一 个 析 取 规则 和 集 ,可 形成 多 少 
规则 ? 每 个 规则 拥有 和 多少 前 件 ? 一 个 序列 媳 盖 算法 为 学 习 到 同样 的 规则 集 需 做 出 多 少 
次 不 同 的 选择 ?如果 给 定 相同 的 训练 数据 , 哪 一 个 系统 你 认为 更 容易 出 现 过 度 拟 合 ? 

10.2 政 进 表 10-2 的 LEARN-ONE-RULE 算法 ,使 它 能 学 习 前 件 中 包 合 实数 属性 凯 值 的 规则 (如 
temprature >42)。 指 出 新 的 算法 可 从 表 10-2 中 做 哪些 修改 得 到 。 提 示 : 考 虚 在 决策 
树 中 这 是 怎样 完成 的 。 

10.3 改进 表 10-2 的 LEARN-ONE-RULE 算法 ,使 它 能 学 习 的 规则 的 前 件 中 可 包含 类 似 于 na- 
tionality € | Canadian，Brazilian | 的 约束 , 即 离散 值 属性 可 取 某 指定 集合 中 任意 值 。 
修改 后 的 程序 应 探索 包含 所 有 这 样子 集 的 假设 空间 。 指 出 新 的 算法 可 从 表 10-2 中 做 
哪些 修改 得 到 。 

10.4 考虑 实现 LEARN.ONE-RULE 搜索 假设 空 则 时 可 选 的 策略 ,确切 地 讲 , 考 虑 下 列 搜索 过 程 
属性 : 
(a) 生成 并 测试 va. 数据 驱动 
(h) 一 般 到 特殊 ws. 特殊 到 一 般 
(c) 序列 覆盖 vs FARMS 
讨论 表 10-1 和 10-2 PRA AE aA. MRR PKS ARE. 
选择 男 一 方案 时 的 影响 (正面 的 和 人 负面 的 )。 

10.5 应 用 命题 形式 的 逆 归 纳 到 子 句 C= 4VB,CI=4VBYVC。 给 出 CG 的 至 少 两 种 可 能 结果 。 

10.6 应 用 道 归纳 到 子 名 C= ROB, x) VY P(x, 4) 和 Cy= SOB, NRZ, x) AE C 
的 奎 少 四 种 可 能 结果 。 这 里 4 和 8 ARH, * My WER. 

10.7 考虑 图 10-3 中 最 下 面 的 赣 归 纳 步 。 若 给 定 置 换 8, 和 69, 的 不 同 选 择 , 推 导出 至 少 两 种 
可 能 产生 的 不 局 输出 。 如 果 用 子 句 Father (Tom, Bob) MRT Father ( Shannon, 
Tom) ,推导 出 此 道 归 纳 步 的 一 个 结果 。 

10.8 考虑 本 章 中 归纳 问题 的 定义 : 

(¥ xi f(x) JED) BARA xi) F fix) 
和 前 面 第 2 章 对 归纳 偏 置 的 定义 见 式 (2.1) 之 间 的 联系 。 基 中 归纳 偏 置 Bo ENAA: 
(Y aE X) Boa ADA x;) F Elsp D) 

其 中 ,了 工 (x 也) 是 学 习 器 在 从 训练 数据 D 上 学 习 后 赋予 新 实例 x; 的 分 类 ,而 为 整个 
实例 空间 。 注 意 , 第 一 个 表达 式 是 为 了 描述 我 们 希望 学 习 器 输出 的 假设 ,而 第 二 个 表达 
式 是 为 了 描述 学 习 器 从 训练 数据 中 泛 北 的 策 路 。 设 计 一 个 学 习 玫 ,其 归纳 偏 置 Bi 等 
于 所 提 殿 的 背景 知识 8B。 
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第 11 章 分 析 学 习 


神经 网 络 和 决策 树 这 样 的 学 习 方法 需要 一 定数 目的 训练 样 例 才 能 达到 一 定 级 别 的 沁 化 精 
度 。 前 面 章节 讨论 的 理论 界限 和 实验 结果 反映 出 了 这 一 事实 。 分 析 学 习 使 用 先 验 知识 和 演 绊 
推理 来 扩大 训练 样 俩 提供 的 信息 ,因此 它 不 受 同 样 的 界限 制约 。 本 章 考 虑 了 一 种 称 为 基于 解 
释 的 学 习 (EBL) 的 分 析 学 习 方法 。 在 基于 解释 的 学 习 中 , 先 验 知识 用 于 分 析 {( 或 者 解释 ) 观 察 
到 的 学 习 样 例 是 怎样 满足 目标 概念 的 。 然 后 这 个 解释 被 用 于 区 分 训练 样 例 中 哪些 是 相关 的 特 
征 ,哪些 是 不 相关 的 。 这 样 , 样 例 就 可 基于 逻辑 推理 进行 泛 化 ,而 不 是 基于 统计 推理 。 基 于 解 
释 的 学 习 已 被 成 功 地 用 于 在 各 种 规划 和 调度 任务 中 学 习 搜 索 控 制 规则 。 本 章 考 虑 学 习 器 的 先 
验 知 识 正确 并 且 完 整 时 的 基于 解释 的 学 习 。 下 一 章 考 虑 先 验 知识 只 是 近似 正确 时 ,将 归纳 学 
习 和 分 析 学 习 结 合 起 来 。 


11.1 简介 


前 面 章节 已 考虑 了 各 种 归纳 法 , 即 通 过 确定 能 够 经 验 地 区 分 正 例 和 反 鲍 的 特征 ,从 观察 到 
的 训练 样 例 中 泛 化 。 决 策 树 学 习 、 神 经 网 络 学 习 .归纳 逻辑 编程 以 及 遗传 算法 是 以 这 种 方式 哥 
作 的 归纳 学 习 方 法 。 这 些 归纳 学 习 器 在 实践 中 的 一 个 关键 限制 是 ,它们 在 可 用 数据 不 足 时 性 
能 较 差 。 实 际 上 ,如 第 7 章 所 讨论 的 ,理论 分 析 显 示 , 从 给 定数 目的 训练 样 例 中 学 习 时 精度 行 
在 基本 的 上 下 弄 。 

是 否 能 开发 出 这 样 的 学 习 方 法 ,它们 训练 精度 上 的 基本 限制 不 受 可 用 训练 数据 的 数量 所 
制约 ? 答案 是 肯定 的 ,只 要 我 们 能 重新 考虑 -- 下 学 习 问 题 的 形成 。 一 种 办 法 是 使 学 习 算 法 能 
接受 显 式 的 先 验 知识 ,与 训练 数据 一 同 作为 输入 。 基 于 解释 的 学 习 是 这 样 的 一 种 方法 。 它 使 
用 先 验 知识 来 分 析 或 解释 每 个 训练 样 贫 , 以 推理 出 样 例 的 哪些 特征 与 目标 函数 相关 ,哪些 不 相 
关 。 这 些 解释 能 使 学 习 器 比 单独 依 此 数 据 进 行 涝 化 有 更 高 的 精度 。 如 前 一 章 所 示 , 归 纳 逻 辑 
系统 (如 ,CIcoL) 使 用 先 验 背 县 知识 来 指导 学 习 。 然 而 它们 使 用 背景 知识 推理 出 的 特征 扩大 了 了 
输入 实例 的 描述 ,因此 增加 了 待 搜索 假设 空间 的 复杂 度 。 相 反 ,基于 解释 的 学 习 使 用 先 验 知识 
来 减 小 待 搜索 假设 空间 的 复杂 度 , 减 小 了 样本 复杂 度 并 提高 了 学 习 器 的 证 化 精度 。 

为 理解 基于 解释 的 学 习 的 直观 意义 ,考虑 下 国际 象棋 的 学 习 任 务 。 确 切 地 讲 , 假 定 我 们 和希 
望 程序 学 习 识 别 棋 局 位 置 的 重要 类 别 ,比如 月 标 概 念 " 黑 棋 将 在 两 步 内 失去 王后 的 棋盘 状态 。 
图 11-1 显示 了 此 自 标 概念 的 一 个 正 例 。 当 然 ,归纳 逻辑 方法 也 能 用 于 学 习 此 目标 概念 。 然 
而 ,由 于 棋盘 相当 复杂 (有 32 个 子 ,可 以 处 在 64 个 方 格 中 ) ,而 且 此 概念 所 描述 的 特定 模式 相 
当 微妙 (包含 了 棋盘 上 不 同 子 的 相对 位 置 ) ,我 们 需要 提供 成 十 上 万 的 类 似 于 图 11-1 这 样 的 训 
练 样 例 ,才能 期 望 归纳 学 习 到 的 假设 被 正确 地 泛 化 。 

学 习 下 棋 任 务 的 有 趣 之 处 在 于 ,人 类 只 要 少数 的 训练 样 例 就 可 学 习 到 这 样 的 昌 标 概念 。 
实际 上 ,多 数 人 在 看 了 图 11-1 这 样 一 个 样 例 之 后 就 可 提出 一 个 目标 概念 的 一 般 假设 ,如 “ 黑 后 
和 黑 王 同时 被 攻击 的 情 闹 ” ,而 不 会 得 到 诸如 这 样 的 假设 (但 也 同样 是 一 致 假设 ) :四 个 日 兵 还 
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注意 请 马 同 时 攻击 黑 王 和 睦 后 。 黑 棋 必 须 移 动 其 下 ,从 而 日 模 能 吃 掉 吉 后 


图 11-1 目标 概念 " 黑 棋 在 两 步 启 夫 去 王后 的 棋盘 状态 "的 一 个 正 便 


管 案 在 于 ,人 类 非常 依赖 合法 移动 棋子 的 先 验 知识 来 解释 或 分 析 训 练 样 例 。 如 提问 为 什么 
图 11-1 的 训练 样 倒是 * 黑 棋 在 两 步 内 失去 王后 ”的 正 例 , 多 数 人 会 给 出 类 似 于 下 面 的 解释 “因为 
白马 同时 攻击 黑 主 和 黑 后 ,黑子 必须 摆脱 被 将 军 的 境遇 ,从 而 让 白 子 吃 掉 皇 后 ”该 解释 的 重要 性 
在 于 它 提供 了 所 需 的 信息 ,以 从 训练 样 例 的 细节 中 合理 泛 化 到 正确 的 一 般 假 设 。 此 解释 中 提 到 
的 样 例 特征 (如 ,白马 . 黑 王 . 黑 后 的 位 置 ) 是 与 是 标 概 念 相关 的 ,并 且 应 该 被 包含 在 一 般 假设 中 。 
相反 ,解释 中 没有 提 到 的 样 例 特征 (如 , 白 棋 的 兵 的 状态 ) 可 被 认为 是 不 相关 的 细节 。 

在 此 下 得 例子 中 ,学 习 器 为 了 建立 假设 , 它 需 要 的 先 验 知识 究竟 是 什么 呢 ? 很 简单 ,是 下 
棋 的 合法 规则 : 即 马 以 及 其 他 子 的 合法 移动 对弈 者 必须 交替 移 子 以 及 要 赢 棋 必 须 捉 住 对 方 的 
王 。 注 意 ,只 给 定 这 样 的 先 验 知识 ,在 原则 上 就 有 可 能 对 任意 棋盘 状态 计算 出 最 优 的 走 法 。 然 
而 ,实践 中 这 样 的 计算 可 能 极为 复杂 ,而 旦 即使 我 们 人 类 在 掌握 了 此 完整 的 下 棋 知识 , 仍 不 能 
达到 最 优 的 对 弈 。 因 此 ,在 下 棋 { 以 及 其 他 搜索 密集 的 问题 , 如 调度 和 规划 ) 这 样 的 人 类 学 习 
中 ,包含 了 -一 个 很 长 揭发 现 先 验 知 识 的 过 程 , 它 是 由 我 们 在 下 棋 时 遇 到 的 特定 样 例 所 引导 的 。 

本 章 描 述 了 能 自动 建立 和 学 习 这 样 的 解释 的 学 习 算法 。 本 章 的 剩余 部 分 将 更 精确 地 定义 
分 析 学 习 问 题 。 下 一 节 给 出 了 一 个 特定 的 基于 解释 的 学 习 算法 , 称 为 PRotoc-EBG。 后 续 几 
节 考 查 了 这 种 算法 的 一 般 特 性 以 及 它 与 前 面 章节 中 讨论 的 归纳 学 习 算法 之 间 的 联系 。 最 后 -- 
节 描 述 了 应 用 基于 解释 的 学 习 以 提 高 大 状态 空间 搜索 的 性 能 。 本 章 我 们 考虑 了 一 种 特殊 情 
况 , 即 生成 解释 所 基于 的 先 验 知识 是 完全 正确 的 ,如 在 下 棋 例 子 中 人 类 有 正确 知识 的 情形 。 第 
12 音 将 分 析 更 -一般 的 学 习 情 况 , 即 先 验 知识 只 是 近似 正确 的 情况 。 


归纳 和 分 析 学 习 问题 


分 析 和 妇 纳 学 习 问 题 的 重要 区 别 在 于 ,它们 设想 的 学 习 问 题 的 形式 不 同 : 

e 在 归纳 学 习 中 ,学 习 器 被 赋予 一 个 假设 空间 态 , 它 必须 从 中 选择 一 个 输出 假设 。 还 有 一 - 
个 训练 样 例 集合 D = fai Fao e Cans fla) EA fC) ASB xi 的 目标 
值 。 学 习 器 所 希望 的 输出 为 H 中 与 这 些 训练 样 例 一 致 的 假 议 疡 。 

s 在 分 析 学 习 中 ,学 习 器 的 输入 包含 与 归纳 学 习 同 样 的 假设 空间 五 和 训练 样 例 Do AiE 
有 另 一 输入: 一 个 领域 理论 (domain theory) 吾 , 它 由 可 用 于 解释 训练 样 例 的 背景 知识 组 成 。 学 
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习 器 希望 的 输出 为 H 中 的 假设 严 , 它 既 与 训练 样 例 D 一 致 ,也 与 领域 理 沦 B 一 致 。 

为 说 明 这 一 点 ,在 下 棋 的 例子 中 每 个 实例 x, PIR Pe ARS, fo EE x; 是 
黑 棋 在 两 步 内 失去 王后 的 棋盘 状态 时 为 真 ,否则 为 假 。 我 们 可 如 第 10 章 那 样 定义 假设 空间 
HA Horn TA (E ,if-then 规则 ) ,其 中 规则 所 使 用 的 谓词 表示 棋盘 上 特定 棋子 的 位 置 或 相 
对 位 置 。 领 域 理 论 B 可 由 形式 化 的 下 棋 规 则 组 成 ,描述 了 合法 的 走 棋 、 对 弈 才 轮 流行 棋 以 及 
钙 住 对 方 王 时 获胜 等 。 

注意 ,在 分 析 学 习 中 SI BOM (RIL, RSV RMR SRC RM. A 
BRR A 的 否定 时 (好 B A) ,我 们 称 与 领域 理论 8B 一 致 (consistent)。 这 种 附加 的 一 
致 性 约束 减少 了 当 数 据 不 能 单独 在 中 决定 上 时 学 习 器 面临 的 歧义 性 。 如 果 领 域 理论 正确 ， 
其 最 后 效果 就 是 提高 了 输出 假设 的 精度 。 

现 详 细 介 绍 一 下 本 章 后 面 一 直 用 到 的 分 析 学 习 问 题 的 男 一 个 例子 。 考 虑 一 个 实例 空间 
开 , 其 中 每 个 实例 都 是 一 对 物理 对 象 。 每 对 物理 对 繁 由 谓词 Color, Volume, Owner , Materi- 
al , Type 和 Density FIR, MAP RHR lel RAR Ae] On 描述 。 在 此 假设 空间 中 ,学 习作 
务 是 学 习 目标 概念 “两 个 物理 对 象 , -个 可 被 安全 地 登 放 在 另 一 个 上 ", 表 示 为 谓词 Safe 
ToStack(x,y)。 学 习 此 目标 概念 有 实用 的 价值 ,例如 ,一 个 机 器 人 系统 要 在 一 有 限 空 间 中 存 
放 不 同 的 物理 对 象 。 此 分 析 学 习 的 完整 定义 在 表 -1 中 给 出 。 

Me 11-1 分析 学 习 问题 : SafeToStack! x, y) 


已 知 ; 
@ 实例 空间 《每 个 实例 描述 了 .-- 对 对 象 ,描述 为 谓 问 Type. Color. Volume. Owner, Material, Density 和 On 
e 假设 空间 站; 每 个 假设 是 一 组 Hom FORM, HP Hom FOR LBA—TAS AW) SafeToStack HIM 
字 。 每 个 Hom THAME HS CS eA RA) LessThan、 Equal. Greater Than 和 
PAR plus. minus 和 times。 合 如 下 面 的 Horn TA BRS PA i: 
SafeToStack(«, yyt Volume(x, ox} A | olume(y, vy) A LessThan( ea, vy) 
@ 日 标 概 仿 : SafeToStack( x,y) 
e 训练 样 例 : 下 面 显示 了 一 个 典型 的 正 例 SajeToStackt Obj1, O8f2): 


Oni Obj1, Gbj2) Owner( O5j1, Fred} 
Type( Obj1, Box} Owner ( Obj2, Louise ) 
Type ObZ, Endtable} Density( Obl, 0.33 
Color ( Obj}, Red) Material ( Obj1, Cardboard) 
Color ( Obj2, Blue) Material ( Obj2, Wood) 
Volume{ O4j1, 2) 

o SMH P: 


SafeToStack( x, y)*— — Fragtie( y) 

SafeToStack( x, y) ~ Lighter x, y) 

Lighter(x, y) + Weight(x, wx) A Weight(y, wy) A LessThan( wx wy} 
Weight( 4, w) + Volume(a, v) A Density(x, d) A Equali w, times(u, d)) 
Weight (x, 5) æ Typex, Endtable } 

Fragile x} + Material x, Glass) 


求解 ; 


e H 中 一 个 与 训练 样 例 和 领域 理论 一 致 的 假设 
nn 
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如 表 11-1 所 示 ,我 们 选 定 的 假设 空间 H 中 每 个 假设 为 一 个 一 阶 让 then 规则 集 , 或 称 
Horn 子 句 (本 章 中 遵循 表 10-3 中 列 出 的 一 阶 Hon 子 句 的 记号 和 术语 )。 例 如 , 表 中 显示 的 
Horn 子 句 很 设 的 样 例 断言 : 当 x 的 体积 Volume 小 于 ( Less Than dy 的 体积 Volume RY (FE 
Horn 子 句 中 变量 vx Al vy 分别 表示 * My 的 体积 值 ) , 则 对 象 x TERRA ( Safe ToStack ) 在 
WR y 上 。 注 意 , Horn 子 句 很 设 可 包含 用 于 描述 实例 的 任意 谓词 以 及 几 个 附加 的 谓词 和 永 
数 。 表 中 还 显示 了 一 个 典型 的 正 例 SafeToStack( obj1, obj2)。 

为 明确 地 表达 此 分 析 学 习 问 题 ,还 必须 提供 领域 理论 ,充分 解释 为 什么 观察 到 的 正 例 满足 目 
标 概念 。 在 前 面 的 下 棋 例 子 里 ,领域 理论 为 棋子 走 法 的 知识 ,从 中 我 们 建立 出 为 什么 黑 棋 会 丢 后 
的 解释 。 在 当前 例子 中 ,领域 理论 必须 很 容易 解释 为 什么 一 个 对 象 可 放 在 另 一 个 之 上 。 表 中 显 
示 的 领域 理论 包括 断言 如果 y 不 是 易 碎 的 ( Fragile), H x 安全 地 和 春 放 在 y LOUR x 的 
材料 ( Material ) EIRIS ( Glass ) 时 对 象 x 是 易 碎 的 ( Fragile )." 如 学 习 到 的 假设 一 样 ,领域 理论 由 
- -组 Hom 子 句 描述 , 它 使 系统 原则 上 可 以 加 入 任何 学 习 到 的 假设 至 后 续 的 领域 理论 中 ， 注 意 ， 
领域 理论 包括 如 Lighter 和 Fragile 这 样 的 附加 谓词 ,它们 不 在 训练 冬 例 的 描述 中 ,但 是 由 更 原子 
的 实例 属性 如 Material 、 Density 和 Volume 使 用 领域 理论 中 其 他 规则 推理 得 出 。 最 后 ,注意 表 中 
显示 的 领域 理论 充分 证 明 这 里 显示 的 正 例 满足 目标 概念 Safe ToStack 。 


11.2 用 完美 的 领域 理论 学 习 :Phouoc-EBG 


如 前 所 述 ,本 章 主要 考虑 的 基于 解释 的 学 习 是 在 领域 理论 很 完美 的 情况 下 的 , 即 领 域 理 论 是 
正确 的 并 且 完 整 的 。 当 领域 理论 中 每 个 断言 都 是 客观 的 真实 描述 时 ,该 领域 理论 被 称 为 正确 的 : 
当 领 域 理论 团 盖 了 实例 空间 中 所 有 正 例 时 ,该 领域 理论 客 称 为 完整 的 (对 应 给 定 的 目标 概念 和 实 
例 空 间 )。 换 言 之 ,其 完整 性 说 明 ,每 个 满足 目标 概念 的 实例 都 可 由 领域 理论 证 明 其 满足 性 。 注 
意 , 前 面 对 完整 性 的 定义 不 要 求 领域 理论 可 证 骨 反 例 不 满足 目标 概念 。 然 而 ,如 果 遵 循 通常 
Provoc 惯 合 , 不 能 证 明 的 断言 可 认定 是 假 。 因 此 该 完整 性 定 浆 可 包含 全 部 正 例 和 反例 。 

读者 在 此 可 能 会 问 ,对 于 学 习 器 假定 有 这 样 的 完美 领域 理论 是 否 合 理 ? 既然 学 习 器 有 了 了 
一 个 完美 的 领域 理论 ,还 有 何必 要 再 去 学 习 ? 对 于 此 问题 可 按 以 下 两 点 回答 : 

ems , 某 些 情形 下 是 有 可 能 提供 完美 领域 理论 的 。 前 末 的 下 棋 的 问题 就 是 这 样 的 - -个 

例子 。 其 中 棋子 的 合法 走 子 形成 了 一 个 完美 的 领域 理论 ,原则 上 ) 可 用 它 来 推理 最 优 
的 下 棋 策 略 。 进 一 步 讲 ,虽然 很 容易 写 出 构成 领域 理论 的 棋子 合法 步子 ,要 写 出 最 优 下 
棋 策 略 仍 然 很 难 。 在 这 种 情况 下 ,我 们 更 希望 将 这 样 的 领域 理 论 提 供给 学 习 器 ,并 希望 
学 习 器 形成 目标 概念 的 有 帮助 的 描述 { 如 :可 能 技 后 的 棋局 状态 ”)。 方 法 是 通过 对 特 
殊 训练 样 例 进 行 考查 和 汉化 。 第 11.4 节 描 述 了 使 用 完美 领域 理论 的 基于 解释 的 学 习 
成 功 地 应 用 到 几 个 搜索 密集 的 计划 和 优化 问题 中 ,并 自动 改进 性 能 。 

§ 第 二 ,在 许多 情况 下 不 能 够 假定 有 完美 的 领域 理论 。 比 如 很 难为 前 面 这 个 相对 简单 的 
SafeToStack 问题 给 出 完整 而 正确 的 领域 理论 。 更 实际 的 方法 是 假定 必须 使 用 基于 不 
完美 领域 理论 的 近似 合理 的 解释 , 面 不 是 基于 完美 知识 微 出 确切 证 明 。 无 论 怎 样 ,我 们 
可 以 通过 考虑 理想 情况 下 的 完美 领域 理论 ,开始 了 解 在 学 习 中 使 用 解释 的 目的 。 第 12 
章 将 讨论 从 不 完美 领域 理论 中 学 习 。 

本 节 展 示 了 一 个 称 为 PaoLoc-EBG 的 算法 (Kedar-Cabelli & McCarty 1987), IESE ASL 
种 基于 解释 的 学 习 的 代表 。PRoLoc-EBG 是 一 序列 覆盖 算法 ( 见 第 10 章 )。 换 言 之 , 它 的 过 特 
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是 学 习 单 个 Hon THAN , 称 去 此 规则 覆盖 的 正 例 , 然 后 在 剩余 正 例 上 重复 这 一 过 程 ,直到 
没有 未 被 覆盖 的 正 例 为 止 。 看 和 定 一 完整 并 正确 的 领域 理论 , PRoLoc-EBG 保证 输出 一 个 假 
设 ( 规 则 集 ), 它 本 身 是 正确 的 并 能 覆盖 观察 到 的 正 例 。 对 任意 正 例 集 合 ,由 PrRoLoc-EBG 输出 
的 假设 包含 一 组 对 应 于 领域 理论 的 目标 概念 的 逻辑 充分 条 件 。PROL0G-EBG 是 Mitchell et al. 
(1986) 介 绍 的 EBG 算法 的 改进 ,并 且 类 似 于 DeJong & Mooney(1986) 撒 述 的 EGGS 算法 。 
PROLOG-EBG 算法 在 表 11-2 中 列 出 。 


3211-2 ETERIK Proce EBG 


Pao.oc-EBG( TargetConcept, TrainingExampies, Domain Theory) 
© LearnedRules* {| 
© Port TrainingExamples 中 的 正 例 
@ 对 Pos PILAR LearnedRules M MRA PositiveExample MUA TE: 
1. ¥# 
© Explanation Domain Theory 表示 的 解释 5 证 明 ) ,说 明 PositiveExemple HA TargeiConcept 
2. 分 析 
@ Suf ‘foient Conditions*-ik M Explanation BES TEA Target Concept 的 PositiveExample 的 量 一 般 特 
征集 合 
3. 改进 
@ Learned Rules* LearnedRuies + New HornClause, HP New HornClause 形式 为 ， 
Terget Concept *~ Sufficrent Conditions 
O REl LearnedRules 
a SiR E l Hom FR LearnedRuies ) AAO Ee — +H Horn Se WHY Horm 子 身 的 创建 
ADRES ERED, DSR AM Bae KE, (3) HH Hom TCE 
sh AE AS 


运行 举例 

为 说 明 该 算法 ,再 次 考虑 表 11-1 给 出 的 训练 样 例 和 领域 理论 。 表 11-2 列 出 的 PROLOG- 
EBG 算法 是 一 序列 覆盖 算法 , 它 增 量 地 考虑 训练 数据 。 对 每 个 新 正 例 ,车 它 还 没 被 一 个 学 到 
的 Horn 子 句 覆盖 ,算法 通过 下 列 步 骤 生 成 一 新 的 Horn 子 句 :(1) 解 释 新 的 正 例 ;(2) 分 析 该 解 
释 以 确定 一 合适 的 泛 化 ;(3) 通 过 加 和 一 新 的 Hor 子 句 以 覆盖 该 正 例 以 及 其 他 相似 实例 改进 
当前 假设 。 下 面 我 们 依次 考查 这 三 个 步骤 。 

1. MAE AES 

处 理 每 个 新 样 例 的 第 一 步 是 按照 领域 理论 建立 解释 ,说 明 该 正 例如 何 满足 目标 概念 。 当 
领域 理论 正确 且 完 整 时 ,此 解释 构成 了 训练 样 例 满足 目标 概念 的 证 明 (proof)。 如 果 先 验 知识 
不 完美 ,解释 中 的 记号 必须 被 扩展 以 允许 近似 的 参数 , 而 不 是 完美 的 证 明 。 

对 当前 样 例 的 解释 见 图 11-2。 注 意 ,其 中 底部 的 图 形 代 表 了 表 11-1 PHEN Safe- 
ToStack( O05j1，086j2)。 图 中 上 部 为 对 此 样 例 构 造 的 解释 。 注 意 , 此 解释 {或 称 证 明 ) 说 明 因 为 
Obj1 比 Obj2 更 轻 ( Lighter) ,所 以 08;1 可 以 安全 堆 合 ( SafeToStack) 在 Obj2 上 。 更 进一步 
知道 0b;1 更 轻 是 因为 它 的 重量 ( Weight) 可 以 由 其 密度 (Density) 和 体积 ( Yolume) 推 得 , 而且 
Obj2 的 重量 ( Weight) 可 从 茶几 ( Endzable) 的 默认 的 重量 ( Weight) 值 得 出 。 此 解释 基于 的 特 
定 Horn FAHER 11-1 的 领域 理论 中 显示 出 。 注 意 , 此 解释 只 提 到 了 0bj1 和 08;2 的 属性 中 
的 一 小 部 分 ( 即 对 应 于 丑 中 阴影 区 域 的 属性 )。 
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虽然 对 于 这 里 显示 的 训练 样 例 和 领域 理论 具有 一 种 解释 ,一 般 情 况 下 可 能 有 多 种 解释 . 
因此 ,这些 解释 中 任意 的 或 所 有 的 都 可 被 使 用 。 每 个 解释 可 对 训练 样 例 形 成 不 同 的 泛 化 ,但 所 
有 解释 都 将 被 给 定 的 领域 理论 论证 。 在 ProLoc-EBG 中 ,解释 的 生成 使 用 了 如 Protos 中 的 反 
向 链 式 搜索 。PRoLoc-EBG 如 PhoLoc 一 样 ,在 它 找到 第 一 个 有 效 证 明 时 终止 。 


FH : 
SafeToStack( Obj Obi2) 


Lighter Obj?,Obj2) 





Weight Obj, 0.6) Weight Obj2, 5) 


Volume(Obji,2} Density(Obj?,0.3) Equal(0.6, 2*0.3) LessThan(0.6, 5) Type(Obj2,Endtable) 


VE OH : 





下 部 的 网 络 以 图 形 钴 出 了 表 11-1 PRIRA SefeToSteck ( O81,08i2)。 图 上 面部 分 益 出 了 此 样 例 怎 样 满 
足 目标 概念 SafeToSteck 的 解释 。 训 练 样 例 中 的 阴影 部 分 表示 在 解释 中 用 到 的 样 例 属 性 。 其 他 不 相关 的 样 例 
MERE i EB EH 


图 11-2 训练 样 例 的 解释 


2. 分 析 解 释 

在 谤 化 训练 样 例 时 面临 的 关键 问题 是 “在 当前 样 例 中 许多 正好 为 真 的 特征 中 , 哪 一 个 是 在 
一 般 情况 下 与 目标 概念 相关 的 ?"。 由 学 习 回 构造 的 解释 对 此 问题 做 出 了 直接 的 回答 :正好 是 
那些 在 解释 中 提 及 的 特征 。 例 如 ,图 11-2 的 解释 包含 了 05j1 的 Density ,但 没有 它 的 Owner 
属性 。 因 此 ， SafeToStack ( xyy) 的 假设 应 包含 Density(x,0.3), MAREE Owner (x, Fred). 
通过 收集 图 11-2 (PRR PERRE FP Obj 和 0852 BRA x 和 y, 可 形成 一 
个 由 领域 理论 论证 的 一 般 规 则 。 

SafeToStack( x, y)*- Volume( x ,2) A Density(x ,0.3) A Type(y, Endtable ) 

上 面 的 规则 体 包 会 了 证 明 树 中 每 个 叶 结 点 ,除了 "Equal (0. 6, times (2,0.3))" 和 和 
“LessThan(0.6, 5)” 之 外 。 去 掉 这 两 个 是 因为 根据 定义 它们 总 是 被 满足 的 ,而 与 x 和 y 无 关 。 

连同 这 个 学 到 的 规则 ,程序 还 可 以 提供 其 论证 :对 训练 样 例 的 解释 形成 了 对 此 规则 正确 性 
的 证 明 。 虽 然 此 解释 是 为 了 长 盖 观 察 到 的 训练 样 例 ,同样 的 解释 将 适用 于 任何 与 此 一 般 规 则 
匹配 的 实例 。 

上 面 的 规则 构成 了 此 训练 样 例 的 一 个 很 有 意义 的 泛 化 ,因为 它 去 除了 样 例 的 许 儿 与 日 标 
概念 无 关 的 属性 (如 ,两 个 对 象 的 Color ) ,然而 通过 更 仔细 地 分 析 解 释 , 可 以 得 到 更 一 般 的 规 
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Hj., Proroc-EBG 可 计算 能 由 解释 论证 的 最 一 般 的 规则 ,方法 是 通过 计算 租 释 的 最 晓 前 像 
(weakest preimage), EX ÙH F: 


定义 :结论 C 对 应 于 证 明 忆 的 最 弱 前 像 (weakest preimase) 为 最 - 般 的 初始 断言 集合 4 
使 得 A 按照 P RHR C. 

例如 ,目标 概念 SafeToStack ( X., 7y) 对 上 应 表 11-1 中 和 解释 的 最 弱 前 像 由 店面 规 则 栖 给 出 ， 
EEn RK 11-2 的 解释 论证 的 最 一 般 规则 : 

SafeToStack( x, y}*- Volume(x, vx) A Density(x,dx) A 
Equal wa, timesl vx, dx)) A LessThan(wx,5) A 
Type(y, Endtable) 

注意 ,这 个 更 一 般 的 规则 不 要 求 给 出 Volume 和 Density 的 特定 值 ,但 前 一 个 规则 需要 。 
它 只 是 对 这 些 属 性 的 值 进行 更 一 般 的 约束 。 

ProLoc-EBG 计算 目标 概念 的 关于 解释 的 最 嫌 前 像 的 过 程 ,使 用 的 是 回归 (regressiom) 过 
程 ( Waldinger 1977)。 回 归 过 程 针 对 的 是 由 任意 Horn 子 句 集 表 示 的 领域 理论 。 它 的 工作 方式 
是 在 解释 中 反复 地 后 退 , 首 先 对 应 于 解释 中 最 后 证 明 步 计算 日 标 概念 的 最 弱 前 懈 ,然后 对 应 于 
其 前 - - 步 计算 结果 表达 式 的 最 弱 前 像 ,依次 类 推 。 该 过 程 在 遍历 过 解释 中 所 有 步骤 后 终 | 上 ,得 
到 对 应 于 解释 的 叶 节 点 上 的 文字 的 目标 概念 的 最 弱 前 件 。 

此 回归 过 程 的 运行 步骤 见 图 11-3 所 示 。 在 此 图 中 ,图 11-2 中 出 现 的 解释 以 标准 字体 ( 非 斜 体 ) 
重 画 出 。 而 每 一 步 ,由 回归 过 程 创 建 的 边缘 回归 表达 式 用 带 下 划 线 的 斜体 字 显 示 。 此 过 程 开 始 于 
树 的 根部 ,边缘 被 初始 化 为 一 般 目 标 概念 Safe ToStack (x ,y),, 第 一 步 ,计算 边缘 表达 式 对 应 于 解释 
中 最 后 (最 上 面 的 ) 推 理 规则 的 最 弱 前 像 。 在 此 情形 下 规则 为 SafeTDStack (x, y) <Lighter(x, y), 
因此 得 到 的 最 弱 前 像 为 Lighter(x,y)。 然 后 ,通过 此 解释 中 下 一 个 Hom 子 司 ,该 过 程 继续 对 此 新 
边缘 | Lighter( x ，y)| 进 行 回归 ,得 到 回归 表达 式 | Weight(x, wa), LesThan( wx, wy), Weightty, 
wy)|。 此 式 意味 着 ,对 于 任意 的 x ye 的 重量 wx KF y 的 重量 wy ,解释 成 立 。 此 边 毕 的 
回归 以 此 一 步 步 的 方式 退回 到 解释 的 叶 结 点 ,最 终 得 到 树 的 叶 结 点 上 的 一 组 泛 化 文学 。 最 终 的 泛 
化 文字 集合 ,如 图 11-3 底部 所 示 , 形 成 了 最 终 规则 的 规则 体 。 | 

“回归 过 程 的 核心 是 ,每 一 步 通过 领域 理论 的 一 条 Horn “Fg EA SAAR RAR BE. 
此 算法 在 表 11-3 中 描述 并 举例 说 明 。 表 中 的 例子 对 应 于 图 11-3 中 最 底部 的 回归 步 。 如 表 中 
显示 的 ,RecREss 算法 的 操作 过 程 是 ,寻找 一 个 置换 使 Hom 子 名 的 头 与 边缘 中 的 相应 文字 合 
一 ,用 规则 体 蔡 换 边缘 中 的 表达 式 ,再 应 用 一 个 合 一 置换 到 整个 边缘 。 

由 PRoLoc-EBG 输出 的 最 终 Horn 子 句 形式 如 下 : 子 句 体 被 定义 为 上 述 过 程 计 算出 的 最 二 
前 件 。 子 句 头 为 目标 概念 本 身 , 以 及 应 用 到 它 上 的 每 一 回归 步 中 的 每 个 置换 (如 表 11-3 中 的 
置换 妈 ,)。 应 用 此 置换 是 为 了 在 创建 出 的 子 句 涉 和 子 句 体 中 保持 一 致 变量 名 ,以 及 当 此 解释 
只 应 用 于 日 标 概念 的 特殊 情况 时 特 化 子 匈 头 ， 如 前 指出 的 ,对 于 当前 的 例子 ,最 终 规则 为 : 

SafeToStack(x, y)*- Volume(x, ux) A Density(«,dx) A 
Equali wx, times( vx, dx)}) A LessThan( wx,5) A 
Type ( Yo Endtable } 
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Volume(Obj!,2) Densiry(Obj1,0.3) Equal(0.6,2*0.3) 
Volume(xvaz) Densitvixds)  Egual(wxvx*dx) LessThanfwxwy) Weighitywy) 


ll è ë FE ë "r ë ë eee eee eee eee ee 


= Pe è æ= ë i ë = ë ë ë e ë = ë e ë ë ë ë e ë ë e ë e ë e ë e ë E ë e ë E ë r ë e P ë ir ë A 


Bit ce AAR a AE JIR ELS, PE, a RR), SUFREA G T 
HEHE ) oe AR — OF ee, Re RY ,结果 文字 台 取 构成 了 对 应 于 解释 的 目标 概念 的 最 
SAU AR ERR PR TEER AS eR FHER SF oe 


11-3. 计算 SafeToStack( Objl, OD ATRAER RR 
811-3 通过 一 个 Hom 子 名 回归 一 组 文字 的 算法 


Recress( Frontier, Rule, Literal, ĝu) 
Frontier :通过 夫 则 被 回归 的 文字 集合 
Rule; Horn ffi] 
Literal: TE Frontier PRIS, EAR PA Rule 推 得 
uit Rule SSR A eS HEN 
返回 构成 Frontier 的 关于 Rue HRBMROXRSFHKS 
@ head Rule 的 头 
@ iody Rule 的 体 
@ 只 head 与 Literal 的 最 一 般 合 一 , 司 得 存在 年 摘 站 满足 ， 
GCG, (head )) = Bl head) 


@ jk lel Ayi Frontier-head + body) 


RAA 11-3 中 最 下 面 的 回归 步 ); 

REGRESS{ Frontier, Rule, Literal, Ou) RP 

Frontier = | Volume(x, ox), Density(x, dx), Equal( wx, times(ox, dx)), LesThan( wx, wy), Weight 
Cy, wy} 

Rule = Weight{z, 5) + Typet z, Endiable } 

Literal = Weight(y, wy} 

Oy = | 2/ OW2) 
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( BE ) 
@ head+ Weight(z, 5) 
& body“ Typed z, Endtable ) 
S Bu | zy, wyd51 ,其 中 Q; = Iy Ob: 
SPI 3 Volume(x, tx), Densityl x, dx), Equali wr, nimesi vr, dx}), LessThan{ wz, 5), Type 


Ly, Endtabie) ; 

注 : Hid Frontier 86 RAF RS Rule ME. Literal X RAE F i Rule RBS Frontier MA, BR 6 
BTA Aue DRAM PRP EK. HEAR RPE Rule OA] Literal 2-H DRO, EF 
FRARKRE ERO -K,. RELER GO RAAT MAA T Rule 的 Frontier MRR, W TAT" 4 "A 
PROHAPREE, Eliri t EA yy ERs 表 中 还 给 出 了 分 步 运行 的 例子 。 


3. 改进 当前 假设 
每 一 阶段 的 当前 假设 由 当时 学 习 到 的 Horn 子 句 集 组 成 。 每 一 阶段 ,序列 覆盖 算法 选取 


一 个 还 未 被 当前 Hom 子 句 覆盖 的 新 正 例 , 解 释 该 正 例 并 按照 上 面 的 过 程 形 成 新 规则 。 注 意 ， 
我 们 已 定义 的 算法 中 只 有 正 例 被 覆盖 ,而 有 旦 学 习 到 的 Hom 子 句 集 只 预测 正 例 。 对 于 一 个 新 
实例 ,如 果 当 前 规则 预测 其 正 例 失败 , 则 它 被 分 类 为 反例 。 这 是 与 PROLOG 这 样 的 Horn F4 
推理 系统 中 标准 的 失败 否定 方法 相 吻 合 的 。 


11.3 对 基于 解释 的 学 习 的 说 明 


如 我 们 在 上 例 中 看 到 的 PRoLoc-EBG 对 单个 训练 梓 例 进行 详细 分 析 ,确定 如 何 最 好 地 从 


特 吻 样 例 汉 化 到 一 般 Horn 子 知 假设。 此 算法 的 要 点 如 下 : 


@ PROLOG-EBG 不 像 归 纳 的 方法 , 它 通 过 运用 先 验 知识 分 析 单 个 样 例 以 产生 合理 的 (justi- 
fied) 一 般 假设 。 

e 对 样 例 如 何 满 足 自 标 概念 的 解释 ,确定 了 样 例 的 哪些 属性 是 相关 的 ; 即 在 解释 中 提 及 的 
属性 。 

© 对 解释 的 进一步 分 析 , 即 个 归 且 标 概 念 以 确定 其 对 应 解释 的 最 弱 前 像 , 可 推导 出 相关 特 
征 值 的 一 般 约束 。 

© 每 个 学 习 到 的 Hon 子 句 对 应 于 满足 日 标 概 念 的 一 个 充分 条 件 。 学 习 到 的 Horn TAR 
覆盖 了 学 习 器 遇 到 的 正 例 ,以 及 其 他 与 此 共 襄 则 梓 解 释 的 实例 。 

e 学 习 到 的 Horm 子 句 的 证 化 将 依赖 于 领域 理论 的 形式 以 及 训练 样 例 被 考虑 的 厚 列 。 

è ProLoc-EBG 隐 含 假定 了 领域 理论 是 正确 日 完整 的 , 如果 领域 理论 不 正确 或 不 完整 ,学 
到 的 概念 也 将 不 正确 。 

在 基于 解释 的 学 避 中 有 一 些 相 关 的 观点 ,可 有 助 于 理解 其 能 力 和 限制 : 

® EBL 作为 理论 引 时 的 样 例 泛 化 (theory-guided generalization of examples) EBL 使 用 给 
定 的 领域 理论 以 从 样 例 中 合理 证 化 ,区 分 出 相关 和 不 相关 的 样 例 属性 ,因此 可 以 避免 用 
王 纯 提 纳 推理 中 的 样本 复杂 度 界限 。 这 是 一 个 隐 含 在 上 面 描述 的 PhoLoc-BEG 算法 中 
的 观 后 。 

è EBL 作为 样 例 引 导 的 理论 重建 (example-guided reformulation of theories) PROLOG-EBG 
算法 被 看 作 是 一 种 重建 领域 理论 到 一 种 可 操作 形式 的 方法 。 确 切 地 讲 , 重 建 领域 理论 
是 通过 创建 这 样 的 规则 ;(a) 能 从 领域 理论 中 演绎 派生 。(b) 在 一 个 推理 步 内 分 类 观察 
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到 的 训练 样 例 。 这 样 ,学 习 到 的 规则 可 被 看 作 将 领域 理论 重建 为 一 组 特殊 情况 下 的 规 
则 , 它 能 在 一 个 推理 步 内 对 目标 概念 的 实例 分 类 。 

e EBL 作为 "仅仅 " 重 述 学 习 器 也 经 "知道 "的 (“just restating what the learner already 
“knows 在 某 种 程度 上 ,在 Safe faStack Ap PHSIBA BFR ARH 
AWA, th UL MRE BY ae Le 90 os EO EE fa IS BE RE to M 
测 其 分 类 。 那 么 学 习 的 意义 在 哪儿 呢 ? 一 种 何等 是 ,在 许多 任务 中 ,原则 上 已 知 的 和 实 
践 上 可 有 痪 计算 的 之 间 的 区 别 很 太 , 寺 此 这 种 “知识 重建 "为 学 习 的 重要 形式 。 例 如 ,在 
下 横 的 例 于 中 , 对弈 的 规则 构成 了 -- 个 完美 的 领域 理论 , 厚 则 上 足以 进行 完美 的 对 弈 . 
即使 如 此 ,人 和 们 仍然 需要 大 景 的 经 验 米 学 习 如 何 很 好 地 下 横 。 这 正 是 这 样 一 种 情形 ， 
《人 类 的 ) 学 习 器 已 经 知道 了 完美 的 领域 理论 ,而 进 . - 步 学 习 只 是 "简单 地 "将 此 知识 重 
建 为 用 一 种 形式 ,以 用 于 于 有效 的 指导 适当 的 行为 。 有 同样 属性 的 男 一 个 例子 是 学 习 
牛顿 力学 课程 ;基本 的 物理 定律 已 被 简单 地 陈述 ,但 学 生 仍旧 需要 在 学 期 中 花 一 大 部 分 
时 间 学 习 这 一 课程 ,以 拥有 更 可 操作 的 知识 ,然后 就 不 需要 在 最 后 的 考试 中 用 最 基本 的 
定律 来 推导 每 个 问题 的 解 。PaoLoc-EBG 执行 的 就 是 这 种 形式 的 知识 重建 , 它 学 习 到 
的 规则 可 从 可 观察 的 实例 特征 映射 到 关于 目标 概念 的 分 类 ,方法 是 使 其 与 基本 领域 理 
论 一 致 。 使 用 原始 的 领域 理论 可 能 需要 许多 推理 步 和 很 可 观 的 搜索 才能 对 任意 实例 分 
类 ,而 学 习 到 的 规则 可 在 一 个 推理 步 内 分 类 观察 到 的 实例 。 

因此 ,纯粹 的 EBL 致力 于 重建 领域 理论 ,产生 可 单 步 推 理 出 样 例 分 类 的 一 般 规则 。 这 种 

知识 重建 的 过 程 有 时 被 称 为 知识 汇编 (knowledge compilation) ,表示 这 种 转 挽 是 为 了 增加 效 
率 , 而 不 改变 系统 知识 的 正确 性 。 


11.3.1 发 现 新 特征 


PROLOG-EBG 一 个 有 趣 的 能 力 是 形成 在 训练 样 例 的 描述 中 没有 显 式 出 现 的 新 特征 ,但 这 
些 特征 是 在 措 述 训练 样 例 中 的 一 般 规则 时 必需 的 。 这 种 能 为 在 前 一 节 的 分 步 算法 和 学 到 的 规 
则 中 显示 。 确 切 地 说 ,学 到 的 规则 断言 对 x 的 Volume 和 和 Density 的 必要 约束 为 其 滋 积 小 于 5S。 
实际 上 ,训练 样 例 并 不 包含 此 乘积 以 及 它 应 取 的 值 的 描述 。 此 约束 是 由 学 习 器 自动 形成 的 。 
注意 ,此 学 习 到 的 “特征 " 英 似 于 由 神经 网 络 的 隐藏 单元 表示 的 特征 舌 型 。 也 就 是 说 ,这 个 
特征 是 可 由 已 有 实例 属性 计算 出 的 .大 量 潜在 的 特征 之 一 。 和 反 了 向 传播 算法 一 样 , PRoLocG- 
EBG 在 其 尝试 拟 合 训练 数据 的 过 程 中 , 自动 形成 这 样 的 特征 。 然 而 ,不 像 神经 网 络 中 使 用 统 
计 过 程 从 多 个 训练 样 例 中 推导 出 隐藏 单元 特征 , PRoroc-EBG 应 用 了 一 个 分 析 过 程 基于 单个 
训练 样 例 的 分 析 推 导 新 的 特征 。 上 面 的 例子 中 PRoroc-EBG 用 分 析 的 方法 推导 出 特征 
Volume x Density > 5, 它 来 自用 于 解释 单个 训练 样 例 的 领域 理论 的 特定 实例 化 。 例 如 ,“ Vol- 
umn 和 Density 的 乘积 很 重要 "这 一 概念 是 及 AEX Weight 的 领域 理论 规则 。 该 乘积 必须 小 
于 $ 的 概念 来 自 另 外 两 条 领域 理论 规则 , 它们 断言 Ob] OAM ERIL EndTable ) BE 
( Lighter) ,以 及 茶几 ( Endtable ) 的 重量 ( Weight) 等 于 5。 因 此 , 正 是 这 些 领域 理论 中 的 最 初 项 
的 特定 合成 和 实例 化 才 导 致 了 此 新 特征 的 定义 。 
自动 学 习 有 用 特征 以 扩大 实例 表示 的 问题 是 机 器 学 习 的 一 个 重要 问题 。 在 基于 解释 的 学 
习 中 分 析 推 导 新 特征 和 在 神经 网 络 的 隐藏 单元 中 归纳 推导 新 特征 提供 了 两 种 不 同 的 座 径 。 因 
此 ,它们 依赖 的 信息 来 源 不 同 (一 个 是 在 许多 样 例 上 的 统计 规则 , 另 一 个 是 使 用 领域 理论 的 单 
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个 样 例 分 析 ) A A BESS GPS PRR R TK 
11.3.2 演绎 学 习 


纯粹 的 PROLOC-EBG 是 一 个 演绎 的 南 不 是 归纳 的 学 习 过 程 。 也 就 是 说 ,通过 计算 解释 的 
最 弱 前 像 , 它 产生 一 个 可 从 领域 理论 8 中 演绎 派生 的 假设 ,而 且 覆 盖 训 练 数据 D。 更 精确 
地 讲 , ProLoc-EBG 输出 一 个 假设 h 满足 下 而 的 约束 : 
CY Ca, fxr)? ED RA xi) FF x:) (11.1) 
DABKh (11.2) 
其 中 训练 数据 D 由 一 组 训练 样 例 组 成 , x; 为 第 i 个 训练 实例 , Af xz) 为 它 的 目标 值 ( 为 
且 标 函数 )。 注 意 ,第 一 个 约束 只 是 简单 地 将 机 咽 学 习 的 通常 的 需求 形式 化 , 即 假设 能 对 训 
练 数据 中 每 个 实例 x; 正确 预测 目标 值 f( x) 中 当然 一 般 情况 下 有 多 种 假设 满足 这 一 约束 。 第 
二 个 约束 描述 了 PRoLoc-EBL 领域 理论 的 作用 :输出 假设 被 进一步 约束 以 使 其 派生 领域 理论 
和 和 数据。 第 二 个 约束 减少 了 学 习 器 在 必须 选择 假设 时 面临 的 歧 儿 性 。 因 此 ,领域 理论 的 作用 
是 减少 假设 空间 的 有 效 规 模 并 降低 学 习 的 样本 复杂 度 。 
使 用 相似 的 记号 可 描述 出 PaoLoc-EBG 所 需 的 领域 理论 的 知识 类 型 。 确 切 地 讲 , PRoLoc- 
EBG 假定 领域 理论 B 涵 北 训练 数据 中 实例 的 分 类 。 
CY Cai, fD EDB A «;) Frai) (11.3) 
这 个 对 领域 理论 B 的 约束 保证 了 对 每 个 正 例 可 构造 出 解释 。 
将 PRoLoc-EBG 学 习 问 题 和 归纳 逻辑 编程 (第 10 章 ) 的 学 习 问 题 相 比较 很 有 意义 。 第 10 
章 我 们 讨论 了 一 般 化 的 归纳 学 习 任 务 ,其 中 对 学 习 器 提供 了 背景 知识 B'。 我 们 使 用 如 而 不 
是 B 来 代表 ILP 所 使 用 的 背景 知识 ,因为 它 一 般 不 满足 式 (11.3) 的 约束 。ILP 是 一 个 归纳 学 
习 系 统 , 面 PRoLoc-EBG 是 演绎 学 习 系 统 。ILP 使 用 其 背景 知识 B' 来 扩大 符 考 虚 的 假设 集 
合 ,而 PROL0G-EBG 使 用 其 领域 理论 B 来 减 小 可 接受 假设 的 集合 。 如 式 (10.2) 表 示 的 ,ILP 系 
统 输出 的 8 满足 下 面 的 约束 : 
(YEr fla) ?ECD)CB AhA xi) Ffla;) 
注意 ,此 表达 式 与 PRoLOG-EBG 对 产生 的 约束 (由 式 (11.2) 和 式 (11.3) 给 出 ) 之 间 的 联 
系 。 这 个 在 h LH ILP 约束 是 式 (11.1) 中 约束 的 弱化 形式 。ILP 约束 只 要 求 {B' ARA) FH 
f(x), i PROLOG-EBG BORE MBH CAA x;) 了 (x;)。 还 要 注意 ,ILP 中 没有 对 应 式 (11.2) 
中 PROLOG-EBG 的 约束 。 


11.3.3 基于 解 耿 的 学 习 的 妇 纳 侦 置 


回忆 第 2 章 的 叙述 ,一 个 学 习 算 法 的 归纳 偏 置 为 一 组 断言 ,它们 与 训练 样 例 一 起 演绎 涵 冀 学 
习 器 的 后 续 预 测 。 归 纳 偏 置 的 重要 性 在 于 它 刻 画 出 学 习 器 是 怎样 从 观察 到 的 训练 样 例 汉化 的 。 

PROLOC-EBG 的 归纳 坊 置 是 什么 ? 在 Protoc-EBG 中 ,如 式 (11.2) 所 描述 的 ,输出 的 假设 
AMDOAB 中 演绎 派生 。 因 此 领域 理论 B 为 一 组 断言 ,它们 与 训练 样 例 一 起 洱 昔 输出 息 设 。 
由 于 学 习 器 的 预测 从 此 假设 h 中 派生 ,似乎 PROLOG-EBG 的 归纳 偏 置 就 是 输入 学 习 器 中 的 领 


O ”这 里 在 酒 昔 ( 上 ) 的 定义 中 外 洁 了 Provoc 样式 的 失败 否定 ,因此 如 果 样 出 不 能 被 证 阴 为 下 例 , 则 它们 被 活 末 为 反例 。 
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域 理 论 B. ZERERA, BET E eB AS : SOR i A BPE 
Hon FAK. Ath ARIA Prococ-EBG 在 这 些 可 选 的 Horn 子 句 集中 作出 选择 
的 内 容 。 如 上 面 所 讲 , PROL0G-EBG 使 用 序列 覆盖 算法 不 断 形成 附加 的 Hom 于 名 直到 所 有 的 
正和 例 被 覆盖 。 更 进一步 ,每 个 单独 的 Horn 子 句 是 当前 训练 样 例 的 解释 所 许可 的 最 一 般 子 句 
( 即 最 弱 前 像 )。 因 此 在 领域 理论 涵 总 的 各 Hon 子 句 集 之 中 ,我 们 可 以 将 PRoLOG-EBG 的 仿冒 
刻画 为 对 极 大 一 般 化 Horn FRIAS SA RE. SERRE ProLoc-EBG AUR aE RIE RB AS 
找 极 大 一 般 化 Hom 子 句 的 真正 最 短 集合 所 需 的 彻底 搜索 算法 的 一 个 启发 式 的 近似 。 无 论 怎 
样 , PRoLoc-EBC 上 归纳 仿 填 仍 可 用 这 种 方式 近似 刻画 。 

近似 的 Poroc-EBG 归纳 偏 置 :领域 理论 B, 加 上 对 极 大 一 般 化 Horm 子 句 的 小 集合 的 偏好 。 

这 里 最 重要 的 要 点 在 于 , PRoLoc-EBG 的 归纳 候 置 ( 即 它 从 训练 数据 中 泛 化 的 策略 ) 在 很 
大 程度 上 由 输入 的 领域 理论 确定 。 它 与 我 们 所 讨论 过 的 多 数学 习 算 法 完全 不 间 。 多 数学 习 算 
法 (如 ,神经 网 络 .决策 树 学 习 ) 中 归纳 偏 置 是 学 习 算 法 的 一 个 固定 属性 ,一 般 是 由 其 很 设 表示 
的 语法 所 确定 的 。 为 人行 么 把 归纳 偏 置 作为 一 个 输入 参数 而 不 是 学 习 器 的 国定 属性 十 分 重要 
We? 这 是 因为 ,如 我 们 在 第 2 章 及 其 他 地 方 讨论 过 的 ,不 存在 一 个 全 局 有 效 的 归纳 仿 置 ,而 且 
无 候 学 习 是 无 用 的 。 因 此 开发 通用 学 习 方法 的 任何 尝试 ,都 至 少 会 允许 归纳 偏 置 能 够 随 待 解 
次 的 学 习 癌 题 变 化 。 在 一 个 更 实践 性 的 层次 上 ,许多 学 习 任 务 很 自然 地 输入 领域 特定 的 知识 
(如 SafeToStack 例子 中 的 有 关 Weight 的 知识 ) 以 影响 学 习 器 从 训练 数据 中 泛 化 的 方法 。 相 
皮 , 通 过 当 制 假设 的 语法 形式 (如 ,偏好 短 决 策 树 ) 来 “实现 " 某 适 当 的 偏 置 性 则 不 太 常 见 。 最 
后 ,如 果 考 虑 一 个 更 大 的 问题 ,一 个 自治 agent 如 何 随 着 时 间 改 进 它 的 学 习 能 力 ,那么 最 好 是 
有 一 个 算法 , 它 的 这 化 能 力 可 在 其 获得 更 多 的 领域 知识 后 增强 。 


11.3.4 知识 级 的 学 习 


如 式 (11.2) 指 出 的 ,由 PaoLoc-EBG 输出 的 假设 从 领域 理论 B 和 训练 数据 D 中 演绎 派 
生 。 实 际 上 ,通过 考查 PRoLoc-EBG 算法 ,很 容易 看 出 ,hh 直接 从 单独 的 召 PIRE. MS Da 
关 。 为 了 理解 这 一 点 ,我 们 可 以 假想 有 一 个 称 为 条 目 枚 举 器 (LEMMA-ENUMERATOR) 的 算法 。 
这 个 算法 基于 领域 理论 中 中 的 断言 简单 地 枚 举 能 得 到 目标 概念 的 所 有 证 明 树 。 对 每 个 证 明 
fit ,LEMMA-ENUMERATOR 用 与 PRoLoc-EBG 相似 的 方法 计算 最 弱 前 像 并 构造 一 个 Horn TA. 
在 LeMMA-ENUMERATOR 和 PROLOC-EBG 之 间 惟 一 的 不 同 是 ,Lemma-ENUMERATOR 名 上 暗 训 练 数 
据 并 校 举 出 所 有 的 证 明 树 。 

注意 ,LEMMA-ENUMERATOR 输出 的 是 ProLoc-EBG 输出 Horn 子 句 的 超 集 。 这 一 事实 引发 
了 儿 个 问题 。 第 一 ,如 果 它 的 假设 单独 从 领域 理论 中 派生 ,那么 PRoLoc-EBG 中 训练 数据 有 人 秆 
么 作用 *? 答案 是 ,训练 样 例 使 PRoLoc-EBG 关注 覆盖 实际 出 现 的 样 例 分 布 的 生成 规则 。 例 如 ， 
在 原来 的 下 棋 例 子 中 ,所 有 可 能 的 条 目 数 很 大 ,而 在 通常 对 弈 中 出 现 的 棋盘 状态 只 是 语法 上 可 
能 出 现 的 棋盘 状态 的 一 小 部 分 。 因 此 ,程序 通过 只 关注 实际 上 会 遇 到 的 训练 样 例 , 比 尝试 校 举 
棋盘 的 所 有 可 能 条 目 更 可 能 得 到 更 小 的 .更 相关 的 规则 集 。 

第 二 个 问题 是 ,PRoLoc-EBG 是 否 能 学 习 到 一 个 超出 隐 含 在 领域 理论 中 的 知识 的 假 访 ? 
换言之 , 它 是 否 能 学 习 到 一 个 实例 的 分 类 ,这 个 实例 不 能 用 原始 的 领域 理论 进行 分 类 (假定 定 
理 证 明 器 有 无 限 的 计算 资源 )? ME. CREE. WR B | ,那么 任何 由 上 MANS 
类 也 将 由 8B 洱 薄 。 这 是 否 是 分 析 学 习 或 演 缂 学习 的 固有 缺陷 ? 并 非 如 此 ,如 下 例 所 示 。 
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举 一 个 演 缂 学 习 的 例子 EPAR A AREA BB ANGER. Fe ee 
一 个 总 基 下 但 五 AB Fh 的 例子 (回忆 式 (11.2) 给 出 的 约束 )。 可 以 考虑 8B 包含 这 样 的 断言 
“As 满足 目标 概念 ,那么 g(x) 也 满足 ," 单 独 这 个 断言 不 能 涵 蕴 任何 实例 的 分 类 。 然 而 ,一 
但 我 们 观察 到 一 个 正和 例 , 它 人 允许 演绎 汉化 到 其 他 未 见 实例 。 例 如 ,考虑 学 习 PlayTennis BIA 
标 概念 , 它 描述 了 Ross 希望 打 网 球 的 日 子 。 假 如 每 个 日 子 失 被 描述 为 单个 属性 Humidity ,并 
旦 领域 理论 包含 单个 断言 ”如果 Ross 喜欢 在 湿度 ( Humidity) H x 的 日 子 打 网 球 ,那么 他 也 育 
欢 在 湿度 小 于 x IA PST PER” ,可 被 形式 化 地 描述 为 : 

CY x) IF ({ PlayTennis = Yes )+-( Humidity = x )) 

THEN (( PlayTennis = Yes) «-( Humidity < x)) 

注意 ,此 领域 理论 不 会 对 PlayTennis MSE A) Pp He E Bl REE ih UR Ee. 
然而 ,一 但 学 习 器 观察 到 一 个 正 例 中 Humidity = 0.3, 领 域 理 论 连 同 此 正 例 一 起 涵 药 到 下 面 的 
一 般 假设 h 

{ PlayTennis = Yes) +-( Humidity <0. 30) 

概括 起 来 ,此 例子 描述 了 一 种 情形 ,其 中 B KA {E BAD FA. RES RRR 
测 不 能 被 单独 的 领域 理论 涵 蕴 。 术 语 “ 知 识 级 的 学 习 ”" 有 时 被 用 于 称 这 种 类 型 的 学 习 , 其 中 学 
习 到 的 假设 普 蓝 的 预测 超出 了 能 被 领域 理论 闻 草 的 范围 。 由 断言 集合 了 涵 蕴 的 所 有 预测 的 
集合 常 称 为 了 的 演绎 闭 包 (deductive closure)。 这 里 的 关键 区 别 在 于 ,知识 级 的 学 习 中 8 的 演 
绎 闭 包 是 8B +h 演绎 闭 包 的 真子 集 。 

知识 级 的 分 析 学 习 的 为 一 个 例子 是 ,考虑 -- 种 类 型 的 断言 ,通常 称 为 determination ,有关 
它 的 细节 网 Russel(1989) 以 及 其 他 一 些 研 究 ， Determination 断言 ,实例 的 革 属 性 完全 取决 于 
革 些 特定 属性 ,但 不 必 指 明 这 种 依赖 性 的 确切 性 质 。 例 如 ,考虑 学 习 -- 个 目标 概念 "说 葡萄 牙 
语 的 人 ”, 并 且 假 定 领域 理论 为 单个 determination 断言 “ 某 人 说 的 语言 由 他 的 国籍 决定 。 只 有 
这 条 领域 理论 ,不 能 够 用 来 分 类 正 例 和 反例 : 然而 ,如 果 我 们 观察 到 *Joe,23 岁 , 左 撒 子 ,巴西 
人 ,说 葡萄 牙 语 " ,那么 我 们 就 可 以 此 正 例 和 领域 理论 中 得 到 :所 有 的 巴西 人 都 说 葡 葡 牙 语 ”。 

这 些 例子 者 演 秒 了 分 析 学 习 如 和 何 产生 不 能 由 领域 理论 单独 兽 蔓 的 假设 。 其 中 的 输出 假设 
h 都 满足 DA B Fh EPRE B Fi。 在 两 种 情况 下 ,学 习 器 都 演绎 (deduce) 出 一 个 合理 的 假 
设 , 它 匡 不 能 从 领域 理论 中 单独 派生 ,也 不 能 从 训练 数据 中 单独 派生 。 


11.4 搜索 控制 知识 的 基于 解释 的 学 习 


从 上 述 可 知 ,PROL0G-EBG 算法 的 实际 能 力 受 领域 理论 必须 正确 且 完 整 这 一 要 求 限制 。 
能 够 满足 这 一 要 求 的 学 习 问 题 的 一 个 重要 类 别 为 通过 学 习 使 复杂 的 搜索 程序 速度 加 快 。 实 际 
上 ,应 用 基于 解释 的 学 习 的 最 大 规模 的 尝试 已 经 开始 解决 学 习 控制 搜索 的 问题 , 它 有 时 又 被 称 
为 “加 速 " 学 习 。 例 如 , 黎 棋 类 这 样 的 对 弈 中 ,对 合法 搜索 操作 的 定义 以 及 搜索 目标 的 定义 提供 
了 学 习 搜索 控制 知识 的 一 个 完整 旦 正确 的 领域 理论 。 

如 何 确 切 地 定义 学 习 搜 索 控制 问题 的 形式 来 使 用 基于 解释 的 学 习 ? 考虑 一 个 一 般 搜索 问 
题 ,其 中 5 为 可 能 搜索 状态 的 集合 ,0 为 合法 搜索 算 子 的 集合 , 它 将 一 种 搜索 状态 转换 成 男 一 
种 搜索 状态 ,而且 CATES 上 定义 的 谓词 , 它 表 示 哪 种 状态 为 目的 状态 。 问 题 一 般 是 寻找 一 
系列 的 算 子 , 它 将 任意 初始 状态 s; 转化 为 某 最 终 状态 ,使 目的 谓词 G 得 到 满足 。 定 义学 习 
问题 形式 的 一 种 办 法 是 让 系统 对 0 中 每 个 算 子 学 习 一 个 分 立 的 目标 概念 。 确 切 地 讲 , 对 0 
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中 每 个 算 子 o, 它 可 尝试 学 习 目 标 概念 “能 用 。 导致 日 的 状态 的 状态 集合 ” 。 当 然 究竟 选择 哪 
一 个 作为 待 学 习 的 目标 状态 ,依赖 于 必须 使 用 此 学 习 到 的 知识 的 问题 求解 器 的 内 部 结构 , 例 
如 ,如 果 问 题 求解 器 是 一 个 means-ends 规划 系统 , 它 的 工作 过 程 是 建立 和 解决 子 旧 的 ,那么 我 
们 希望 学 习 的 目标 概念 可 以 是 “规划 状态 集合 ,其 中 4 类 型 的 子 目 标 必须 在 B 类 型 子 日 标 之 
前 被 解决 。 

使 用 基于 解释 的 学 习 以 改进 其 搜索 的 一 个 系统 是 PEoDlcY( Carbonell et al. 1990). Prop- 
cy 是 一 个 领域 无 关 的 规划 系统 , 它 接受 以 状态 空间 $ HATERA O 定义 的 问题 领域 。 然 后 
它 解决 这 种 形式 的 问题 ;* 寻 找 一 个 算 子 序列 使 初始 状态 si 转换 到 满足 目的 谓词 6 的 状态 。 
Propicy 使 用 一 个 means-ends 规划 器 将 问题 分 解 为 子 目标 ,解决 这 些 子 目标 ,然后 合并 起 来 成 
为 整个 问题 的 解 。 这 样 , 在 搜索 问题 解 的 过 程 中 PRopicY 重复 面临 这 样 的 问题 :下 一 步 要 解 
决 的 是 哪个 子 昌 标 ?” 以 及 “为 解决 此 子 目 标 要 用 哪个 算 于 ?”Minton(1988) 描 述 了 将 基于 解 靶 
的 学 习 集 成 到 Provicy 的 过 程 ,方法 是 定义 一 组 适合 于 这 种 不 断 遇 到 的 控制 决策 的 目标 概 
今 、 例 如 ,一 个 目标 概念 是 * 子 目标 4 必须 在 子 目标 8 之 前 解决 的 状态 集合 ”对 这 个 目标 概 
念 ,由 Propicy 学 到 的 规则 在 简单 的 物体 堆 秋 问题 中 的 一 个 例子 为 ; 

IF 待 解决 的 子 目标 之 一 为 On( x,y) FFE 

竺 解决 的 子 目标 之 一 为 On(y,z) 

THEN Æ On(x,y) 之 有 前 解决 On(y,z) 

为 理解 此 规则 ,再 次 考虑 图 9-3 中 示例 的 简单 的 块 状 物体 堆 和 问题 。 在 图 示 的 问题 中 , 目 
的 是 将 物 块 堆 委 成 为 单词 universal, Propicy 将 把 此 问题 分 解 为 几 个 要 达到 的 子 目 标 , 包 括 
Ont U，N)、On(N, 了 等。 注意 上 面 的 规则 匹配 子 日 标 Oat U, NW On(N, 1), FFA B 
议 在 解决 子 问题 On( U ,NN) 之 前 解决 On N, 1). 原因 是 (以 及 PaoplcY 用 于 学 习 此 规则 的 
解释 } 如 果 我 们 以 道 序 解决 这 两 个 子 目 标 将 会 直到 冲突 ,从 而 必须 撤销 On U, NRRL 
到 另 一 子 目 标 OnCN，1)。PRODICY 的 学 习 过 程 首先 时 到 这 样 一 个 冲突 ,然后 自我 解释 冲突 
的 原因 ,并 创建 一 个 类 似 于 以 上 的 规则 。 其 效果 在 于 PRoDIcY 使 用 关于 可 能 的 子 目 标 冲突 的 
领域 无 关 的 知识 及 关于 特定 算 子 的 领域 特定 的 知识 (如 ,机 器 人 只 能 一 次 举 起 一 个 物 块 ) ,以 学 
习 到 有 用 的 领域 特定 的 规划 规则 ,如 上 面 例 示 的 规则 。 

使 用 基于 解释 的 学 习 获 取 PRODICY 的 控制 知识 ,已 经 在 不 同 的 问题 领域 中 例 示 。 包 括 .上 
面 简单 的 物 块 堆 状 问题 ,以 及 其 他 更 复杂 的 调度 和 规划 问题 。Minton( 1988) 报 告 了 3 个 领域 
中 的 实验 ,其 中 学 习 到 的 控制 规则 把 问题 求解 的 效率 提高 了 2 到 4 局。 更 进一步 ,这 些 学 到 的 
规则 的 性 能 在 这 3 个 问题 中 与 手写 规则 有 可 比 人 性 。Minton 也 描述 了 对 基本 的 基于 解释 学 习 
的 若干 扩展 ,它们 提高 了 学 习 控 制 知识 的 效率 。 方 法 包括 简化 学 习 到 的 规则 以 及 去 陈 那些 收 
益 小 于 开销 的 规则 。 

另 一 个 结合 了 某 种 形式 的 基于 解释 学 习 的 一 般 问 题 求解 框架 为 Soar 系统 { Laird et al. 
1986; Newell 1990), SDAR 支持 范围 较 宽 的 问题 求解 策略 , 包 全 了 PRODIGY 的 means-ends 规 
划 策 略 在 内 。 然 而 , 像 PRonicY +E, Soar 中 的 学 习 基 通过 解释 当前 的 控制 策略 为 什么 导致 
低 效 。 当心 遇 到 一 个 搜索 选择 ,其 中 没有 一 个 确定 无 疑 的 答案 时 (如 ,下 一 步 该 应 用 哪 一 个 算 
子 ) Soar 思考 这 个 搜索 僵局 ,使 用 如 生成 再 测试 这 种 双 华 的 方法 来 决定 正确 的 行动 访问 : H 
来 解决 这 种 僵局 的 推理 可 被 理解 为 对 将 来 怎样 解决 类 似 惫 局 的 解释 。Soar 使 用 另 一 种 个 局 
的 基于 解释 的 学 习 , 称 为 chunking, 以 抽出 可 应 用 相同 解释 的 一 般 条 件 。SoAR 已 被 应 用 于 多 
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数 的 问题 领域 ,并 被 提议 为 人 类 学 习 过 程 中 一 种 心理 学 上 可 行 的 模型 ( 见 Newell 1990 )。 
Propicy 和 Soar 演 孙 了 基于 解释 的 学 习 方 法 可 被 成 功 应 用 于 不 同 问 题 领域 来 获取 搜索 控 
制 知识 。 然 而 ,大 包 数 启发 式 搜 索 程序 仍然 使 用 类 似 于 第 1 章 描述 的 数值 评估 孙 数 ,而 不 是 由 基 
于 解释 的 学 习 获 取 的 规则 。 原 因 是 什么 ”实际 上 有 一 些 重要 的 实践 问题 应 用 了 EBL 学 习 搜 索 
控制 - 说 先 ,在 许多 情况 下 必须 学 习 的 控制 规则 的 数目 非常 大 (如 , 数 千 个 规则 )。 当 系统 学 习 到 
改进 搜索 的 越 来 越 多 的 控制 规则 时 ,要 花 去 越 来 越 大 的 开销 ,才能 在 每 步 中 匹配 这 组 规则 对 应 当 
前 搜索 状态 。 注 意 ,这 个 问题 并 不 内 局 限于 基于 解释 的 学 习 , 它 在 用 增长 的 规则 集 表示 学 到 知识 
的 任意 系统 中 都 会 出 现 。 有 效 的 匹配 规则 算法 可 缓和 这 一 问题 ,但 不 能 完全 消除 它 。 Minton 
(1988) 讨 论 了 经 验 地 估计 每 个 规则 的 计算 开销 和 收益 的 策略 ,只 在 估计 的 收益 超过 估计 的 开销 
时 才学 习 这 些 规 则 ,并 在 某 些 规 则 有 仙 效 用 时 删除 它们 。 他 撕 述 了 如 何 使 用 这 种 效用 分 析 来 确 
定 哪 些 应 被 学 习 哪 些 该 忘记 ,很 大 地 增强 了 PRopicY 中 基于 解释 学 习 的 有 效 性 。 例 如 ,在 一 系列 
BLA A BY BREA lo], Pronicy AB) T 328 个 机 会 可 学 习 一 个 新 规则 ,但 只 利用 了 其 中 69 
个 ,并 且 最 终 去 除了 低 驱 用 的 规则 后 剩余 19 个 规则 。Tambe et al. (1990A Doorenbos( 1993) 讨 论 
了 怎样 确定 规划 中 匹配 开销 特别 大 的 类 型 ,并 讨论 了 将 这 些 规则 重新 表示 为 更 有 效 的 形式 和 优 
化 规则 匹配 的 算法 。Doorenboe(1993) 描 述 了 这 些 方 法 怎样 使 Soar 在 一 个 问题 领域 中 有 效 匹 配 
100 000 条 规则 ,而 不 会 显著 增加 对 每 个 状态 匹配 规则 的 开销 。 

应 用 EBL 以 学 习 搜 索 卸 制 的 第 二 个 问题 是 ,多 数 情 况 下 即使 对 希望 的 目标 概念 建立 解释 
也 很 难处 理 。 例 如 ,在 棋 类 问题 中 我 们 可 能 希望 学 习 一 个 目标 概念 :操作 4 导致 最 优 解 的 状 
态 。" 遗憾 的 是 ,为 证 明 或 解释 为 什么 4 导致 最 优 解 需要 解释 其 他 的 算法 会 导致 不 如 4 的 解 。 
这 一 般 需 要 搜索 指数 级 深度 的 计算 量 。Chien(1993} 和 Tadepalli(1990) 探 索 了 “消极 "学 习 和 
“ 增 量 "学 习 的 方法 ,其 中 启发 式 规则 被 用 于 产生 部 分 的 .近似 的 .但 易 计 算 的 解释 。 与 解释 是 
完美 的 情况 一 样 ,一 些 规 则 被 从 这 些 不 完美 的 解释 中 抽取 出 来 。 当 然 这 些 学 到 的 规则 会 由 于 
解释 的 不 完整 性 而 不 正确 。 系 统 通过 监视 在 后 续 情 况 下 规则 的 性 能 来 处 理 此 问题 。 如 果 规 则 
后 来 出 错 ,那么 原始 的 解释 被 增 量 地 完善 以 闭 盖 新 的 和 情况, 并且 从 此 解释 中 抽取 出 更 好 的 规 
则 。 

为 改进 基于 搜索 的 问题 求解 器 的 效率 ,许多 其 他 研究 工作 探索 了 基于 解释 的 学 习 的 应 用 
(如 ，Mitehell 1981, Silver 1983, Shavlik 1990, Mahadevan et al. 1993, Gervasio & Dejong 
1994; Dejong 1994). Bennett & Dejong (1996) 研 究 了 基于 解释 学 习 在 机 器 人 规划 系统 的 应 
用 ,此 系统 中 描述 其 人 世界 和 行为 的 领域 理论 是 不 完美 的 。Dietterich & Flann (1995) 探 索 了 基 
于 解释 学 习 和 增强 学 习 { 见 第 13 章 ) 的 集成 。Mitehell & Thrun(1993) 撕 述 了 将 一 个 基于 解释 
的 神经 网 络 学 习 方 法 ( 见 第 12 章 讨 论 的 EBNN 算法 } 应 用 到 增强 学 习 问 题 中 。 


11.5 小 结 和 补充 读物 


本 章 的 要 点 包括 : 

e 纯粹 的 归纳 学 习 方法 寻找 一 个 假设 以 拟 合 训练 数据 ,与 此 不 同 , 纯 粹 的 分 析 学 习 方法 搜 
寻 一 个 假设 拟 合 学 习 骨 的 先 验 知识 并 覆盖 训练 样 例 。 人 类 经 党 使 用 先 验 知识 指导 新 假 
设 的 形成 。 本 章 考查 了 纯粹 的 分 析 学 习 方法 。 下 一 章 介 绍 归纳 -分 析 学 习 的 结合 。 

$ 基于 解释 的 学 习 是 分 析 学 习 的 一 种 形式 ,其 中 学 习 嚣 处 理 每 个 新 训练 梓 例 的 方法 是 : 
(1) 按 照 领域 理论 解释 该 样 例 中 观察 到 的 目标 值 ;(2) 分 析 此 解释 ,确定 解释 成 立 的 一 般 
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条 件 ;(3) 改 进 假设 ,合并 这 些 一 般 条 件 。 
e PhOLOC-EBG 是 基于 解释 的 学 习 算法 , 它 使 用 一 阶 Horn 子 句 来 表示 其 领域 理论 和 学 到 
的 假设 。 在 Prococ-EBG 中 ,解释 即 为 PRoLec 证 明 ,而 从 解释 中 抽取 的 假设 是 此 证 明 
的 最 弱 前 像 。 作 为 结果 ,由 PaoLoc-EBG 输出 的 假设 从 其 领域 理论 中 演绎 派生 ， 
e 如 PROLOG-EBG 这 样 的 分 析 学 习 方 法 建立 有 用 的 中 间 特 征 , 它 是 分 析 单 独 训练 样 例 的 
一 个 副产品 。 这 种 生成 特征 的 分 析 途 径 补 充 了 如 反 向 传 醚 这样 的 归纳 方法 中 基于 统计 
方法 的 中 间 特 征 生成 (如 ,隐藏 单元 特征 )。 
e 虽然 PoLoc-EBG 不 会 产生 能 扩展 其 售 域 理论 的 演绎 闲 包 的 假设 ,其 他 演绎 学 习 过 程 
有 这 个 能 方 。 便 如 ,一 个 包含 determination 断言 {如 , “国籍 确定 语言 ”) 的 领域 理 沦 可 被 
用 于 与 训练 数据 一 起 演绎 推理 超出 领域 理论 的 演绎 闭 包 的 假设 。 
s 可 庙 用 正确 且 完 整 的 领域 理论 的 一 类 重要 问题 是 大 的 状态 空间 的 搜索 问题 。 如 Pron- 
cy 和 Soar 这 样 的 系统 已 显示 了 基于 解释 的 学 习 方 法 的 效用 ,它们 自 池 获取 有 效 的 搜 
索 规 则 以 加 速 后 续 的 问题 求解 。 
@ 虽然 基于 解释 的 学 习 方 法 对 人 类 来 说 很 有 用 ,但 纯粹 的 演绎 实现 { 如, ProLoc-EBG) & 
一 缺点 是 它 输出 的 假设 的 正确 性 只 在 领域 理论 正确 时 才能 保证 。 下 一 章 , 我 们 考查 了 
结合 归纳 和 分 析 学 习 方 法 的 途径 ,从 不 完美 的 领域 理论 和 有 限 训 练 数据 中 有 效 学 习 。 
分 析 学 习 方法 的 根源 可 追 湖 到 Fikes et al. (1972) 早 期 的 工作 , 它 可 通过 对 ABSTRIPS 中 
的 算 子 的 分 析 学 习 宏 算 子 (macro-operator)。 较 迟 一 些 的 是 Soloway(1977) 的 研究 ,他 在 学 习 
中 使 用 明确 的 先 验 知识 。 类 似 于 本 章 讨 论 的 基于 解释 的 学 习 方 法 普 先 出 现 于 几 个 20 ftt 80 
年 代 早 期 开发 的 系统 中 ,包括 DeJong(1981) 、Mitehell( 1981) , Winston et al. (1983) 和 Silver 
(1983)。Dejong & Mooney(1986) 和 Mitchell et al. (1986) 提 供 了 对 基于 有 解释 学 习 方 法 的 一 
般 描 述 ,这 些 引 发 了 20 世纪 80 年 代 晚 期 对 这 个 主题 的 研究 热潮。 由 依 里 诺 斯 大 学 所 做 的 一 
系列 基于 解释 的 学 习 的 研究 由 DeJong (1993) 描 述 ,其 中 包括 修改 解释 的 结构 从 循环 的 和 临时 
的 解释 中 正确 泛 化 。 更 多 最 近 的 研究 着 重 于 扩展 基于 解释 的 方法 使 用 不 完美 的 领域 理论 以 及 
结合 归纳 学 习 和 和 分析 学 习 ({ 见 第 12 章 )。 关 于 有 呈 的 和 先 验 知识 在 人 类 和 机 器 学 习 中 的 作用 ， 
Ram & Leake (1995) 给 出 了 一 个 综合 的 氢 述 ,而 近期 基于 解释 的 学 习 的 概览 见 DeJong 
(1997). 

应 用 完美 领域 理论 的 最 严肃 的 尝试 是 在 学 习 搜 索 控制 的 领域 或 "加速 学 习 。 由 Laird et 
al, {1986) 提 出 的 Soar 系统 和 Carbonell et al.(1990) 描 述 的 Propicy 系统 是 使 用 基于 解释 的 
学 习 来 学 习 问 题 求解 的 两 个 最 成 熟 的 系统 。Rosenbloom & Laird (1986) 讨 论 了 Soar 的 学 习 
方法 ( 称 为 “chunking”) 和 其 他 基于 解释 学 习 方 法 之 间 的 紧密 联系 。 最 近 , Dietterich & Flann 
{1995) 探 索 了 学 习 搜 索 控制 的 方法 ,这 种 方法 结合 了 基于 解释 的 学 习 和 增强 学 习 。 

虽然 这 里 的 主要 目的 是 研究 机 器 学 习 算 法 ,但 仍 需 注意 到 ,对 人 类 学 习 的 实验 性 研究 支持 
了 这样 一 个 猜想 , 即 人 类 的 学 习 是 基于 解释 的 。 创 如 ,Ahn et al. (1987) Qin et al.(1992) 概 
述 了 支持 人 类 应 用 基于 解释 的 学 习 过 程 这 一 猜想 的 证 据 。Wisniewski & Meain(1995) 摘 述 了 了 
对 人 类 学 习 的 实验 性 研究 , 它 建议 在 先 验 知识 和 观察 数据 之 间 进 行 丰 富 的 相互 作用 以 影 啊 学 
习 过 程 。Kotovsky & Baillargeon( 1994) 描 述 的 实验 说 明 ,即使 11 个 月 大 的 婴儿 在 学 导 时 也 是 


基于 其 先 验 知识 的 。 
基于 解释 的 学 习 中 执行 的 分 析 类 似 于 PRoLoc 程序 中 使 用 的 几 类 程序 优化 方法 ,比如 ,部 
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分 评估 (partial evaluation). Van Harmelen & Bundy (1988) 提 供 了 对 此 关系 的 讨论 。 
习题 
11.1 考虑 学 习 问 题 , 它 的 目标 概念 是 “居住 在 同一 房屋 内 的 两 个 人 ," 表 示 为 谓词 House- 
Mates( x,y)。 下 面 为 此 概念 的 一 个 正 例 ， 
HouseMates( Joe, Sue) 
Person ( Joe) Person ( Sue) 
Sex ( Joe, Male) Sex ( Sue, Female) 
HairColor( Joe, Black)  HairColor{ Sue, Brown) 
Height ( Joe, Short) Height( Sue, Short) 
Nationality ( Joe, US) Nationality ( Sue, US) 
Mother ( Joe, Mary) Mother ( Sue, Mary) 
Age( Joe, 8) Age( Sue, 6) 
下 面 的 领域 理论 有 助 于 获取 HouseMates 概念 ， 
HouseMates( x, y)*-InSameFamily( x, y) 
HouseM ates (x , y j) < 一 FraternityBrothers (x, Y y 
InSameFamily( X, y) +- Married( x, y) 
InSameFamily( x, y) < Youngster ( x ) A Youngster y) A SameMother( x,y) 
SameMother (x, y) <— Mother x, z) A Mother (y. z) 
Youngster ( x) +-Age(x,a)A LessThan(a, 10) 
应 用 PRoLoc-EBG 算法 到 泛 化 上 述 实 例 的 任务 中 ,使 用 上 面 的 领域 理论 。 确 切 地 讲 ; 
(a) 手动 执行 PRoLoc-EBG 算法 应 用 于 此 间 题 ,也 就 是 说 , 写 出 对 此 实例 生成 的 解释 ， 
写 出 此 解释 中 回归 目标 概念 的 结果 以 及 得 到 的 Horn 子 句 规则 。 
(bh) 假定 目标 概念 为 “与 Je 住 在 一 起 的 人 "而 不 是 “ 住 在 一 起 的 两 个 人 。“ 用 上 面 的 相 
同 的 形式 化 的 方法 写 出 目标 概念 。 假 定 训练 实例 和 领域 理论 与 以 前 相同 , PRoLoc- 
EBG 对 此 新 目标 概念 产生 的 Hom 子 句 是 什么 ? 
11.2 如 第 11.3.1 节 指出 的 ,PaoLoc-EBG 可 构造 出 有 用 的 新 特征 ,这 些 新 特征 不 是 实例 的 
显 式 特征 ,但 它们 是 用 显 式 特 征 定义 的 ,并 朋 有 助 于 描述 合适 的 泛 化 。 这 些 特征 的 推 寺 
是 分 析 训 练 样 例 解 释 的 一 个 副 效应 。 推 导 有 用 特征 的 另 一 方法 是 对 驳 层 神经 网 络 使 用 
反 向 传播 算法 ,其 中 新 特征 是 基于 大 量 样 例 的 统计 属性 由 隐藏 单元 学 习 到 的 。 能 否 推 
荐 一 种 方法 ,可 以 结合 这 些 分 析 的 和 归纳 的 途径 来 生成 新 特征 ? 《警告 :这 是 一 个 待 解 
决 的 研究 问题 )。 
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纯粹 的 归纳 学 习 方 法 通过 在 训练 样 例 中 寻找 经 验 化 的 规律 来 形成 一 般 假 设 。 纯 粹 的 分 析 
方法 使 用 先 验 知识 演绎 推导 一 般 假设 。 本 章 考 虚 将 归纳 和 分 析 的 机 制 结合 起 来 的 方法 ,获得 
两 者 的 优点 :有 先 验 知 识 时 更 高 的 泛 化 精度 和 依赖 训练 数据 克服 先 验 知识 的 不 足 。 所 得 到 的 
结合 的 方法 比 纯粹 的 归纳 学 习 方 法 和 纯粹 的 分 析 学 习 方 法 性 能 都 要 高 。 本 章 考 虑 的 归纳 - 分 
析 学 习 方 法 同时 基于 符号 表示 和 人 工 神 经 网 络 表 示 。 


12.1 动机 


在 前 所 章 已 经 见 到 两 种 类 型 的 机 器 学 习 :归纳 学 习 和 分 析 学 习 。 归 纳 方法 如 决策 树 归 纳 
和 神经 网 络 反 向 传播 等 , 它 寻 找 拟 合 训练 数据 的 一 般 假 设 。 分 析 的 方法 如 PoLoc ~ EBG, € 
寻找 拟 合 先 验 知识 的 一 般 假 设 , 同 时 使 它 覆盖 训练 数据 。 这 两 种 学 习 类 型 对 假设 的 论证 方法 
有 根本 的 区 别 ,因此 , 优 缺 点 互 为 补 死 ,将 它们 结合 起 来 有 可 能 得 到 更 强 有 力 的 学 习 方 法 。 

纯粹 的 分 析 学 习 方 法 优点 在 于 ,可 用 先 验 知识 从 较 少 的 数据 中 更 精确 地 汉化 以 引导 学 习 ， 
然而 当先 验 知识 不 正确 或 不 足 时 ,这 一 方法 可 能 会 产生 误导 。 纯 粹 的 归纳 方法 具有 的 优点 是 
不 需要 显 式 的 先 验 知 识 , 并 且 主 要 基于 训练 数据 学 习 规 律 。 然 而 , 奇 训 练 数 据 不 是 时 它 会 失 
败 , 并 且 会 被 其 中 隐 式 的 归纳 偏 置 所 误导 ,而 归纳 偏 置 是 从 观察 数据 中 沁 化 所 必 党 的 。 表 12-1 
概述 了 两 者 的 互补 的 优点 和 缺陷 。 本 章 考 虑 的 问题 是 怎样 将 二 者 结合 成 一 个 单独 的 算法 来 获 
得 它们 各 自 的 优 后 。 

表 121 纯粹 的 分 析 学 习 和 纯粹 归纳 学 习 的 比较 


归纳 学 习 分 析 学 习 
目标 HE HE 拟 合 领域 理论 的 假设 
论证 统计 推理 演绎 推理 
优点 需要 很 少 先 验 知识 从 稀少 的 数据 中 学 习 
缺陷 BOSE, REM 不 完美 的 领域 理论 


归纳 和 分 析 学 习 方 法 之 间 的 不 同 可 从 它们 对 学 习 到 的 假设 进行 的 论证 (juetification) 性 质 
中 看 出 。 由 纯粹 的 分 析 学 习 (如 , PRoloc ~ EBG) 输 出 的 假设 执行 的 是 过 辑 论 证 :输出 的 假设 
从 领域 理论 和 训练 数据 中 演绎 派生 。 纯 粹 的 归纳 学 习 方 法 (如 , 反 向 传播 ) 输 出 的 假设 执行 的 
是 统计 论证 :输出 的 假设 从 统计 论据 中 派生 , 它 说 明 训练 样本 足够 大 ,从 而 能 代表 样 例 的 基本 
分 布 。 归 纳 的 统计 论证 在 第 7 章 讨论 的 PAC 学 习 中 已 被 清晰 地 阐明 。 

由 于 分 析 方 法 提出 逻辑 论证 的 假设 ,而 归纳 方法 提供 统计 论证 的 假设 ,很 容易 看 出 将 两 者 
结合 起 来 的 好 处 是 什么 。 迎 辑 论证 的 强度 只 相当 于 它们 所 基于 的 假定 或 先 验 知识 。 如 果 先 验 
知识 不 正确 或 不 可 知 ,逻辑 论证 是 不 可 信和 无 说 服 力 的 。 统 计 论证 的 强度 依赖 于 它们 基于 的 
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法 ,可 以 覆盖 较 广 的 学 习 任 务 。 

图 12-1 概述 了 学 习 问 题 的 分 布 范 围 , 它 随 着 可 获得 的 先 验 知 识 和 训练 数据 不 同 而 变化 。 
在 一 个 极端 ,有 大 量 的 训练 数据 ,但 没有 先 验 其 识 。 在 另 一 极端 ,有 很 强 的 先 验 知识 ,但 训练 数 
据 很 少 。 多 数 实 际 学 习 问 题 位 于 这 两 个 极端 之 间 。 例 如 ,通过 分 析 医 疗 记录 的 数据 库 来 学习 
“治疗 手段 x 比 治疗 手段 y 更 有 效 的 病症 ” ,通常 可 以 从 近似 的 先 验 知识 开始 (如 ,疾病 中 内 在 
的 因果 机 制 的 定性 模型 ) ,比如 认定 患者 的 体温 比 他 的 姓名 更 相关 。 类 似 地 ,在 分 析 一 个 股票 
市 场 数 据 库 来 学 习 有 目标 概念 "股票 值 在 后 10 个 月 会 翻 看 的 公司 ”中 ,如 果 已 有 了 经 济 学 的 大 概 
知识 ,可 以 提出 公司 的 总 利润 比 公 司 标志 的 颜色 更 相关 。 在 这 两 种 问题 中 ,我 们 的 先 验 知识 是 
不 完整 的 ,但 显然 , 它 有 助 于 区 分 相关 和 不 相关 的 特征 。 


HME 分 析 学 习 
CC 一 一 ee——— 
ERME 之 美的 先 验 知识 
无 先 验 知识 aah 


CRAM RADAR ARAN S ITU RRR RARRE, ERO, ARH 
领域 理论 ,可 以 使 用 如 PRoL0G - EBG REHASH. BSA RR el 


图 12-1 FES EH 


本 章 考虑 的 问题 是 ;我 们 可 以 设计 出 怎样 的 算法 ,使 用 近似 的 先 验 知识 结合 可 用 数据 来 
形成 一 般 假设 ”注意 ,即使 在 使 用 纯粹 的 归纳 学 习 算 法 时 , 仍 有 机 会 基于 特定 学 习 任 务 的 先 验 
知识 来 选择 设计 方案 。 例 如 , 当 应 用 反 回 传播 来 解决 语音 识别 这 样 的 问题 时 ,设计 者 必须 选择 
输入 和 输出 数据 的 编码 方式 \ 在 梯度 下 降 中 被 最 小 化 的 误差 消 数 隐藏 单元 的 数量 ,网 络 的 拓 
扑 结构 .学习 速率 和 冲 量 等 。 在 做 这 些 选 择 时 ,设计 者 可 以 将 领域 特定 的 知识 能 人 到 学 习 莫 法 
中 。 然 而 结果 仍然 是 纯粹 的 归纳 算法 反 向 传播 的 一 个 实现 ,由 设计 者 针对 语音 识别 任务 进行 
特 丈 化。 我们 感 兴趣 的 不 在 于 此 , 而 是 一 个 系统 能 将 先 验 知 识 作为 显 式 的 输入 给 学 习 希 ,训练 
数据 也 同样 作为 显 式 输入 。 这 样 它们 仍 为 通用 的 算法 ,但 利用 了 领域 的 特定 知识 。 简 要 概括 
一 下 ,我 们 感 兴趣 的 是 领域 无 关 算 法 ,这 种 算法 使 用 显 式 输 入 的 领域 相关 的 知识 。 

对 于 结合 了 归纳 和 分 析 的 各 种 学 习 方 法 ,应 使 用 什么 样 的 准则 来 比较 它们 呢 ? 由 于 学 习 
器 一 般 不 能 预先 知道 领域 理论 各 训练 数据 的 质量 。 我 们 感 兴趣 的 是 能 对 图 12-1 整个 问题 系 
列 都 可 操作 的 一 般 方 法 。 这 样 的 学 习 方 法 应 具有 以 下 的 特殊 属性 : 

9 如 果 没 有 领域 理论 , 它 至 少 能 像 纯 粹 的 归纳 方法 一 样 有 效 学 习 。 

® 如 果 有 完美 的 领域 理论 , 它 至 少 能 像 纯粹 的 分 析 方 法 一 样 有 效 学 习 。 

© 如 果 领 域 理论 和 训练 数据 都 不 完美 , 它 应 能 结合 两 者 的 长 处 , 比 单纯 的 归纳 或 分 析 方 法 

的 性 能 都 要 好 。 

o 它 应 能 处 理 训练 数据 中 未 知 程度 的 差错 。 

e 它 应 能 处 理 领域 理论 中 未 知 程度 的 差 销 。 

注意 ,这 里 列 出 的 期 望 目 标 很 难 达 到 。 例 如 ,处 理 训练 数据 中 的 差错 ,即使 在 基于 统计 的 
归纳 方法 中 ,如 果 没 有 某 些 先 验 知识 和 对 差错 分 布 的 假定 ,这 仍 是 值得 研究 的 问题 。 结 合 归纳 
和 分 析 学 习 的 方法 是 当前 活跃 的 研究 领域 。 虽 然 上 面 列 出 的 是 我 们 希望 算法 能 达到 的 美好 性 
质 ,由 前 没有 算法 能 以 完全 一 般 化 的 方式 满足 所 有 这 些 约 束 。 
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下 一 节 对 结合 归纳 - 分 析 学 习 的 问题 作出 了 更 详细 的 讨论 。 后 面 几 节 描 述 了 3 AAR 
途径 , 结 台 近 拟 的 先 验 知识 和 可 用 数据 来 指导 学 习 器 搜索 合适 的 假设 。 每 种 途径 都 已 在 多 个 
问题 领域 中 显示 出 有 超出 纯 归 纳 方法 的 性 能 。 为 方便 比较 ,我 们 使 用 同一 例子 来 说 明 这 3 种 
途径 。 

12.2 学 习 的 归纳 - 分 析 途 径 
12.2.1 学 习 问 题 


AAD SAN RS RAY ed PLA 


已 知 : 

9 一 个 训练 样 例 集合 五 ,可 能 包含 差错 

一 个 领域 理论 中, 可 能 包含 差错 

© 候选 假设 的 空间 H 

求解 : 

© 一 个 最 好 地 拟 合 训练 样 例 和 领域 理论 的 假设 

“最 好 地 氢 合 训练 样 鲍 和 领域 理论 "这 各 话 确切 含义 是 什么 ? 或 者 说 ,是 否 会 选择 一 个 拟 
合 数据 程度 较 好 而 氢 合 理论 较 差 的 假设 ,或 反之 ?为 了 更 精确 起 兄 , 敌 要 定义 对 应 数据 和 对 应 
于 领域 理论 的 假设 错误 率 度量 ,然后 用 这 些 错误 率 来 表示 这 个 问题 。 回 忆 第 5 BF errorp( A) 
定义 为 D PRA 误 分 类 的 样 例 所 占 比 例 。 可 定义 h 关于 领域 理论 B HRY errorg( hb) A, 
h 与 8 在 分 类 一 个 随机 抽取 实例 时 不 一 致 的 概率 。 接 下 来 就 可 党 试用 这 些 错 误 率 的 形式 刻画 
所 希望 的 输出 假设 。 例 如 ,我 们 可 以 要 求 假 设 使 上 述 错 误 率 的 某 种 综合 度量 最 小 化 ,如 : 


argmin kp errorp(h) + kgerrorg(h) 


he H 

虽然 粗 看 起 来 这 很 合理 ,但 还 不 清楚 怎样 确定 kp Hk 的 值 来 指定 拟 合 数据 和 拟 合理 论 
两 者 的 相对 重要 程度 。 如 果 有 非常 差 的 理论 , 却 有 大 量 可 靠 数 据 , 最 好 使 eroro h WREE 
大 。 如 果 有 很 好 的 理论 ,而 数据 样本 很 小 昌 存 在 大 量 噪声 ,把 errorg( 襄 ) 的 权 值 增 大 会 得 到 最 
好 的 结果 。 当 然 如 果 学 习 器 预先 不 知道 领域 理论 和 训练 数据 的 质量 , 它 就 不 清楚 该 怎样 为 这 
两 部 分 错误 率 加 权 。 

怎样 确定 先 验 知识 和 数据 权 值 的 一 种 解决 方法 是 使 用 员 叶 斯 的 观点 。 回 忆 一 下 第 65 章 ， 
贝 叶 斯 定律 描述 了 怎样 计算 给 定 训练 数据 D 时 假设 的 后 验 概率 P(h1D)。 确 切 地 讲 , 贝 叶 
斯 定律 基于 观察 到 的 数据 D 以 及 先 验 知 识 计 算 后 验 概 率 , 以 PCA). PCD) AD 已 (Di 的 形式 
表示 。 因 此 我 们 可 把 P(h).P(D) 和 PLDI14) 看 作 是 某 种 形式 的 背景 知识 或 领域 理论 ,而 且 
可 把 员 叶 斯 理论 看 成 一 种 为 领域 理论 加 权 的 方法 , 它 与 观察 到 的 数据 DE, RT h 的 后 验 
概率 为 PCh1D)。 按 照 足 叶 斯 的 观点 ,所 选择 的 假设 应 为 后 验 慨 率 中 最 大 的 一 个 ,并 且 贝 叶 斯 
公式 提供 了 为 此 先 验 知识 和 观察 到 数据 的 贡献 加 权 的 良好 方法 。 遗 健 的 是 ,内 叶 斯 公式 隐 合 
假定 拥有 关于 PC(h)、PLD) 和 P(D1R) 概 率 分 布 的 完美 的 知识 。 当 这 些 量 只 是 近似 已 知 时 ， 
单独 的 贝 叶 斯 公式 没有 规定 加 何 将 其 与 观察 数据 结合 起 来 (在 此 情况 下 ,一 种 方法 是 假定 有 P 
(hh)、.P(D) 和 P(D1k) 之 上 的 先 验 概率 分 布 ,然后 计算 后 验 概率 POLI DH, Ami 
BORA PCA). PCD) A PCDIE) 之 上 的 先 验 分 布 方面 的 附加 知识 ,因此 并 没有 真正 解决 此 问 


题 )。 
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Se eee ee 一 


当 考 虑 特定 算法 时 ,我们 会 再 次 考 志 "最 佳 " 拟 合 假设 和 数据 是 什么 含义 。 现 在 ,我 们 只 是 
简单 地 说 ,学 习 问 题 是 为 了 使 假设 在 数据 和 领域 理论 上 的 错误 率 的 某 种 综合 度量 最 小 化 。 


12.2.2 RiT HER 


如 何 将 领域 理论 和 训练 数据 最 好 地 结合 起 来 ,从 而 限制 可 接受 假设 的 搜索 呢 ? 这 在 机 器 
学 习 中 仍 是 有 符 研 究 的 问题 。 本 章 考 察 了 几 种 已 提出 的 方法 ,其 中 许多 要 对 已 讨论 过 的 归纳 
方法 (如 , 反 向 传播 ,FOIL) 进 行 扩展 . 

为 了 解 可 能 途径 的 范围 ,一 种 办 法 是 回 到 前 面 对 学 习 的 看 法 ,即将 其 看 作 是 一 种 搜索 多 个 
可 选 假设 空间 的 任务 。 为 了 将 大 多 数学 习 任 务 刻 生 为 搜索 算法 ,需要 定义 待 搜索 的 假设 空间 
所 ,搜索 的 开始 点 为 初始 假设 ho, 定 义 单个 搜索 步 的 搜索 算 子 集合 0 以 及 指定 搜索 目标 的 判 
EGC., FERRI 3 种 方法 ,这 3 种 方法 用 先 验 知识 来 改变 纯 归 纳 方 法 执行 的 搜索 。 

# 使 用 先 验 知识 推导 出 搜索 起 步 的 初始 假设 :用 这 种 方法 ,领域 理论 B 被 用 于 建立 一 个 
上 与 8B 一致 的 切 始 假设 ho。 然 后 以 这 个 初始 很 设 ho 为 起 点 应用 标准 归纳 方法 。 例 如 ,下 
面 描 述 的 KBANN 系统 是 按 这 种 方法 学 习 人 工 神 经 网 络 的 。 它 使 用 先 验 知识 来 设计 初 
始 网 络 的 互联 结构 和 权 值 ,这 样 ,此 初始 网 络 与 给 定 的 领域 理论 完全 一 致 。 然 后 此 初始 
网 络 假设 用 反 向 传播 算法 和 训练 数据 被 归纳 地 精 化 。 从 一 个 与 领域 理论 一 致 的 很 设 开 
始 搜索 ,使 得 最 终 输 出 假设 更 有 可 能 拟 合 此 理论 。 

8 使 用 先 驻 知 识 来 改变 假设 空间 搜索 的 目标 :在 这 种 方法 中 , HERA C 被 修改 ,以 要 求 
输出 假设 拟 合 训练 样 例 的 同时 也 拟 合 领域 理论 。 例 如 ,下 面 描述 的 EBNN 系统 以 这 种 
方法 学 习 神 经 网 络 。 神 经 网 络 的 归纳 学 习 执 行 梯度 下 降 来 使 网 络 在 训练 数据 上 的 误差 
平方 最 小 化 ,而 EBNN 中 执行 梯度 下 降 来 优化 男 一 个 判 据 。 这 个 判 据 包 含 一 个 附加 
项 , 它 衡量 了 学 习 到 的 网 络 相 对 于 领域 理论 的 误差 。 

. 司 用 先 验 知识 改变 可 用 的 搜索 步 :在 此 方法 中 ,领域 理论 修改 了 搜索 算 子 集合 D。 例 
如 ,下 面 描述 的 FOCL 系统 以 这 种 方法 学 习 Hon 子 句 集 。 它 基于 归纳 系统 FOIL, 
FOIL 在 可 能 的 Horn 子 句 室 间 上 执行 贫 禁 搜索 ,每 步 通过 加 人 一 个 新 文字 来 下 正当 前 
假设 。FOCL 在 修正 假设 中 使 用 领域 理论 来 扩展 可 用 的 文字 集合 。 它 允许 在 单个 搜索 
步 中 加 入 多 个 文字 ,只 要 它们 能 由 领域 理论 保证 其 正确 性 。 以 这 种 方式 ,FQOCL 在 假设 
空间 中 移动 一 步 相 当 于 使 用 原来 的 算法 移动 多 步 。 这 些 “ 宏 移动 "(macro-moves) 可 极 
大 地 改变 搜索 的 方向 ,这 样 ,最 终 的 与 数据 一 致 的 假设 与 只 使 用 归纳 搜索 步 时 找到 的 假 
设 不 同 。 

下 面 几 节 依次 介绍 了 这 几 种 方法 。 


12.3 使 用 先 验 知识 得 到 初始 假设 


一 种 使 用 先 验 知识 的 方法 是 ,将 假设 初始 化 为 完美 拟 合 领域 理论 ,然后 按照 需要 归纳 地 精 
化 此 初始 很 设 以 拟 合 训 练 数 据 。 这 种 方法 被 用 于 KBANN( Knowledge-Based Artificial Neural 
Network ,基于 知识 的 人 工 神 经 网 络 ) 算 法 中 。 在 KBANN 中 ,首先 建立 了 一 个 初始 的 网 络 。 
对 每 个 可 能 实例 ,网 络 赋予 它 的 分 类 等 于 领域 理论 赋予 的 分 类 。 然 后 应 用 反 向 传播 算法 来 调 


整 初始 网 络 ,使 其 拟 合 训 练 样 例 。 
很 容易 看 出 ,该 技术 的 动机 在 于 ;如 果 领 域 理 论 是 正确 的 ,初始 假设 将 正确 分 类 所 有 训 疑 
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以 改进 它 在 训练 样 例 上 的 拟 合 度 。 回 忆 在 纯粹 归纳 的 反 向 传播 算法 中 , 权 值 一 般 被 初始 化 为 
小 的 随机 值 。KBANN 背后 的 直 驱 含义 在 于 , 芭 使 领域 理论 是 近似 正确 的 ,将 网 络 初 始 化 为 所 
合 领域 理论 , 比 初始 化 为 随机 权 值 有 更 好 的 近似 开端 。 这 应 该 可 以 得 到 汉化 精度 更 高 的 最 终 
假设 。 
这 种 使 用 领域 理论 来 初始 化 很 设 的 途径 已 经 被 许多 研究 者 探索 过 。 包 括 Shavlik & Tow- 
ell (1989) .Towell & Shavlik (1994), Fu (1989，19937 和 Pratt (1993a，1993b)。 我 们 将 使 用 
Shavlik & Towell( 1989) #345) KBANN 算法 来 例 示 这 一 途径 。 


12.3.1 KBANN 算法 


KBANN 运用 领域 理论 来 初始 化 假设 。 其 中 假定 领域 理论 用 一 组 命题 形式 的 非 递 归 的 
Horn 子 句 来 表示 。 命 题 形 式 Hom 子 句 表示 它 不 包含 变量 。KBANN 的 输入 和 输出 如 下 : 


已 知 ; 
§ 一 组 训练 样 例 
e HAE AA Horn 子宫 组 成 的 领域 理论 


KR : 

© 一 个 拟 合 训练 样 例 的 被 领域 理论 仿 置 的 人 工 神 经 网 络 

KBANN 算法 包含 两 个 阶段 ,首先 它 创 建 一 个 完美 拟 合 领域 理论 的 人 工 神 经 网 络 , 然 后 使 
用 反 向 传播 算法 来 精 化 初始 网 络 以 拟 合 训练 样 例 。 算 法 的 细节 {包括 创建 初始 网 络 的 算法 ) 在 
表 12-2 中 列 出 ,并 将 在 12.3.2 FA. 


$ 12-2 KBANN 算法 


KBANN( Domain _ Theory, Training _ Examples) 
Domain _ Theory: 非 递 归 命 是 型 Hom THRA 
Training _ Examples: BORMRMA < input, output > 对 的 集合 
ay ; AUE- TF th + RE 0 ie 
1. ESM EEE TA 
2. 对 Domain _ Theory 的 每 个 Horn 于 何 ,创建 如 下 的 网 络 单元 
o 连接 此 单元 的 输入 到 此 子宫 的 先行 河 测 试 的 腾 性 
看 对 于 句 的 每 个 非 负 先 行 词 MFR F 结对 应 的 sigmoid 单元 输入 
外 对 子 句 的 每 个 负 先行 词 , 赋 于 权 值 - F BAAS sigmoid 单元 输入 
ORAM w 为 -(n -0.5) 外 ,其 中 为 于 句 的 非 负 先行 词 的 数目 
3, 在 网 络 单元 之 闻 增 加 附加 的 连接 , 话 技 深度 为 让 的 每 个 网 络 单元 到 诬 度 为 + ] 的 所 有 网 络 单元 的 输 和 人 层 
bo RFRA 0 的 隧 机 权 值 
归纳 步 ; 精 化 此 初始 网 络 
4. 应 用 扩 向 传播 算法 来 调整 初始 网 阁 权 值 以 拟 合 Training _ Examples 


注 ; AARAA thA EAB FRL- RGM EERE PRR BA), FRE RE 
为 0,4。 


12.3.2 举例 
为 例 示 KBANN 的 操作 ,考虑 表 12-3 列 出 的 一 个 简单 的 学 习 间 题 , 它 取 自 于 Towel & 
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Shavlik(1989) 并 略 做 改动 。 这 里 每 个 实例 代表 一 物理 对 象 。 描 述 了 它 的 物理 材料 . 它 的 轻重 
等 等 。 任 务 是 学 习 定 义 在 这 物理 对 象 上 的 目标 概念 Cup 。 表 12-3 描述 了 Cup 目标 概念 的 训 
练 样 例 和 领域 理论 。 注 音 ,领域 理论 中 定义 Cup 为 一 个 Stable, Liftable 以 及 Open Vessel 的 对 
象 。 领 域 理 论 还 把 这 3 个 属性 定义 为 更 基本 的 属性 , 即 描 述 了 此 实例 的 原子 的 ,可 操作 的 属 
性 。 注 意 领 域 理论 并 不 是 与 训练 样 例 完全 一 致 的 。 例 如 ,领域 理论 鲁 误 地 分 类 第 2 和 第 3 个 
训练 样 例 为 反例 。 不 过 ,领域 理论 形成 了 目标 概念 的 有 效 近 似 。KBANN 使 用 领域 理论 和 训 
练 样 例 一 起 学 习 目 标 概 念 ,可 以 比 单独 使 用 其 中 一 种 更 精确 。 


R123 Ap 学 习 任 务 


领域 理论 ， 
Cup* Mabie, Liftable, Open Vessel 
Stable- BottomisFias 
Liftable~ Graspable, Light 
Graspable*— HasHandle 
Open Vessel < HasConcavity, ConcarityPointsUp 
训练 样 例 ， 


Bottom lsF lat 
ConcaviiyP onti p 


Expensive 


Fragile 
HandleOnTop 


HandleOnSide 
HasConcatity 

Has Handie 

Light 

MadeO fCeramic 
MadeO) {Paper 
MadeO/Styrofoam 





注 : RPP THIRA Cup H — OLE LR e e—a A 


在 KBANN 算法 的 第 一 阶段 (算法 中 的 1 ~ 3 步 ), 构 建 了 一 个 与 领域 理论 一 致 的 初始 网 
络 。 例 如 ,从 Cup 的 领域 理论 中 构建 的 网 络 描绘 于 图 12-2 中 。 一 般 说 来 ,了 网络 的 构建 是 通过 
对 领域 理论 中 每 一 个 Hom 子 句 建立 一 个 sigmoid 单元 。KBANN 遵从 惯例 ,sigmoid 输出 值 大 
于 0.5 时 被 解释 为 真 ,小 于 0.5 则 为 假 。 因 此 每 个 单元 的 构建 方法 为 ; 当 对 应 的 Horn 子 句 存 
在 时 ,单元 的 输出 就 大 于 0.5。 对 该 Hon 子 句 的 每 个 先行 词 ,建立 其 对 应 的 sigmoid 单元 作为 
输入 。 然 后 设置 sigmoid 单元 的 权 值 ,使 其 计算 得 出 其 输入 的 逻辑 与 。 确 切 地 讲 ,对 于 每 个 对 
应 于 非 负 先行 词 的 输入 , 权 值 被 设置 为 某 正 常量 天 。 对 每 个 对 应 于 负 先 行 词 的 输入 , 权 值 设 
为 ~- Wo ATRAE wo 设 为 - (n -0.5) 7 EP n 为 非 负 先行 词 的 数目 。 当 单元 输 信 值 
为 1 或 0 时 ,这 保证 了 当 且 仅 当 所 有 的 子 句 先行 词 满足 时 ,输入 的 如 权 和 训 上 wo AEE 
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此 sigmoid 的 输出 大 于 0.5)。 注 意 , 对 于 sigmoid 单元 ,第 二 层 及 以 后 的 层 中 单元 输入 不 一 定 
为 1 或 0, 上 面 的 命题 无 法 应 用 于 此 。 然 而 如 果 为 下 选择 足够 大 的 值 ,此 KBANN 算法 可 以 
对 任意 深度 的 网 络 进 行 领域 理论 编码 。Towell & Shavlik( 1994) 在 多 数 实 验 中 使 用 W = 4.0. 





这 个 网 络 在 KBANN 算法 的 第 一 阶段 创建 出 来 , 它 产生 的 输出 分 类 等 于 给 定 的 领域 理论 中 的 于 名 做 的 分 类 。 粗 线 表 
TEHA F CHER EREE PMT AT, MRR TY OER 


图 12-2 ”等 价 于 领域 理论 的 神经 网 络 


每 个 sigmoid 单元 输 人 被 连接 到 适当 的 网 络 输 人 或 另 一 个 sigmoid 单元 的 输出 ,以 反映 领 
域 理论 中 对 应 属性 的 依 蔗 关系 图 。 最 后 一 步 , 叉 附 加 了 许多 输 人 到 每 个 阅 值 单元 ,它们 的 权 值 
设置 近似 为 0。 这 些 附加 连接 的 作用 是 允许 网 络 能 归纳 学 习 到 的 内 容 可 起 出 领域 理论 中 提出 
ARISE. M 12-2 PRR F 的 单元 输入 ,而 细 线 表明 初始 权 值 约 为 0 的 
连接 。 很 容易 验证 对 于 足够 大 的 W 值 , 此 网 络 输出 值 等 于 领域 理论 的 预测 。 

KBANN 的 第 二 阶段 ( 表 12-2 中 算法 的 第 4 步 ) 和 使 用 训练 样 例 和 反 向 传播 算法 来 精 化 初 
始 网 络 权 值 。 当 然 ,如 果 领 域 理 论 和 训练 样 例 不 包含 差错 ,初始 的 网 络 就 已 经 拟 合 训练 数据 
To AME Cup 例子 中 ,领域 理论 与 训练 数据 不 一 致 ,所 以 此 步骤 会 改变 初始 网 络 的 权 值 。 
得 到 的 训练 过 的 了 网络 显示 在 图 12-3 中 , 粗 实 线 表明 最 大 的 正 权 值 , 粗 虚 线 表 明 最 大 负 权 值 ,网 
线 表明 可 忽 赂 的 权 值 。 虽 然 初 始 网 络 误 分 类 了 表 12-3 中 几 个 训练 样 例 ,但 图 12-3 中 精 化 的 
网 络 能 完美 地 分 类 所 有 训练 样 例 。 

有 必要 比较 一 下 最 终归 纳 精 化 的 网 络 权 值 和 领域 理论 导出 的 初始 权 值 。 如 图 12-3 所 示 ， 
在 归纳 步 中 发 现 了 全 新 的 依赖 关系 ,包括 Liftable 单元 对 MadeofStyrofoam 的 依赖 关系 。 必 
须 牢 记 , 虽 然 标 有 Liftable 的 单元 最 初 由 它 的 Horn 子 句 定义 ,但 后 来 由 反 向 传播 修改 的 权 值 
已 经 完全 改变 了 此 隐藏 单元 的 意义 。 在 网 络 被 训练 过 后 ,该 单元 可 能 有 了 与 官 始 的 Liftable 
记号 无 关 的 非常 不 同 的 意义 。 


12.3.3 WAR 


概括 地 讲 ,KBANN 用 分 析 的 方式 创建 了 等 价 于 给 定 领域 理论 的 网 络 ,然后 归纳 地 精 化 此 
初始 假设 以 更 好 地 拟 合 训练 数据 。 在 此 过 程 中 , 它 为 了 改变 领域 理论 和 训练 数据 不 一 致 的 情 
况 而 修改 网 络 权 值 。 
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图 12-3 ”对 初始 网 络 归 纳 精 化 后 的 结果 


与 纯 归 纳 的 反 向 传播 ( 它 并 始 于 随机 的 权 值 ) 相 比 , KBANN 的 好 处 在 于 , 它 在 给 定 近 似 正 
确 领 域 理 论 时 ,能 够 比 反 启 传 播 有 更 高 的 泛 化 精度 ,特别 是 在 训练 数据 稀少 时 。 在 几 种 实际 系 
缠 中 ,KBANN 和 其 他 初始 化 假设 的 途径 已 显示 出 优 于 纯 归 纳 的 系统 。 例 如 , Towel et al. 
(1990) 描 述 了 将 KBANN 应 用 于 分 子 遗 传 癌 题 ,任务 是 学 习 识 别称 为 激发 区 域 (promoter re- 
gion) 的 DNA 片断 , 它 影响 基因 的 活性 。 在 此 实验 中 ,KBANN 的 领域 理论 从 一 个 分 析 遗 传 学 
家 那里 获取 ,而 激发 区 域 的 训练 样 例 中 包含 53 PEA 53 个 反例 。 性 能 评 佑 使 用 了 “和 留 一 
法 "(leave-one-out) ,系统 运行 106 次 。 每 次 循环 中 KBANN 用 105 个 样 例 训练 ,并 在 剩余 的 样 
例 上 测试 。 这 106 次 实验 的 结果 被 积聚 起 来 提供 对 真实 错误 率 的 知 计 。KBANN 错误 率 为 4/ 
106, 向 标准 的 反 向 传播 错误 率 为 8/106。KBANN 的 一 个 变种 由 Fu(1993) 实 现 , 它 报告 在 同 
样 数据 上 的 错误 率 为 27106。 因 此 , 先 验 知识 在 这 些 实验 中 很 大 程度 地 减 小 了 错误 率 。 此 实 
验 的 训练 数据 可 以 从 万 维 网 址 http://www. ics. uci. edu’ ~ mlearn/M LReository. html 上 得 
到 。 

Fu( 1993) 40 Towell et al.(1990) 都 报告 :从 最 终 训 红 过 的 网 络 中 抽取 的 Horn 于 名 ,可 提 
供 一 个 能 更 好 氢 合 训 练 数据 的 领域 理论 。 虽 然 有 时 可 能 从 学 习 到 的 网 络 权 值 映 射 回 一 个 精 化 
的 Horn 子 柯 集 ,但 在 一 般 情 形 下 这 种 作法 是 有 问题 的 。 因 为 某 些 权 值 设 置 没有 直接 对 应 的 
Horn 子 句 。 Craven & Shavik(1994)4) Cravent 1996}) 措 述 了 另外 的 方法 从 学 习 过 的 网 络 中 抽 
RFF SA. 

为 理解 KBANN 的 定义 ,有 必要 考虑 其 中 的 假设 搜索 与 纯 归 纳 的 反 向 传播 算法 中 有 什么 
区 别 。 这 两 种 算法 中 执行 的 假设 空间 搜索 在 图 12-4 中 示意 。 如 其 中 显示 的 ,关键 区 别 在 于 执 
行 权 值 调节 所 基于 的 初始 假设 。 在 有 多 个 假设 ( 权 值 向 量 ) 能 拟 合 数据 的 情况 下 (这 种 情况 在 
训练 数据 稀少 时 更 可 能 出 现 ), KBANN 更 有 可 能 收 伍 到 这 样 的 假设 , 它 丛 训练 数据 中 的 泛 化 
与 领域 理论 的 预测 更 相似 。 另 一 方面 , 反 向 传播 收 全 到 的 特定 假设 更 可 能 是 小 权 值 的 假设 ,全 
大 致 对 应 于 在 训练 样 例 间 平 滑 插 值 的 泛 化 偏 置 。 简 要 地 说 , KBANN 使 用 一 个 领域 特定 的 理 
论 来 偏 置 江 化 ,而 反 向 传播 算法 使 用 一 个 领域 无 关 的 语法 偏 置 (偏向 于 小 的 权 值 )。 福 意 , 在 此 
概述 中 我 们 忽略 了 搜索 中 局 部 极 小 值 的 影 啊 。 
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KBANN PSL Rees RS RRS RL. A EEA eG 
SU se MA, RBS PS HEME (Ra) KBANN 利 反 向 传播 法 可 能 找 
到 不 一 样 的 假设 ,内 为 它们 的 起 点 不 同 

12-4 KBANN 中 的 假设 空间 搜索 


KBANN 的 局 限 性 之 一 是 , 它 只 能 使 用 命题 领域 理论 , 即 无 变量 和 的 Horn FIR. MR 
予 很 不 精确 的 领域 理论 ,KBANN 也 可 能 被 误导 ,从 而 其 泛 化 精度 变 得 低 于 反 向 传播 。 不 过， 
KBANN 和 相关 算法 确实 在 若干 实际 问题 中 很 有 用 。 

KBANN 是 结合 分 析 和 归纳 学 习 的 初始 化 假设 途径 中 的 一 种 。 这 一 途径 的 其 他 例子 包括 
Fu( 1993), Gallant (1988), Bradshaw et al. (1989), Yang & Bhargava( 1990), Lacher et al. 
(1991)。 这 些 途 径 不 同 之 处 在 于 建立 初始 假设 的 实际 使 用 的 技术 、 权 值 调 整 的 反 向 传播 的 应 
用 以 及 从 精 化 的 网 络 中 抽取 符号 描述 的 方法 。Pratt(1993a,1993b) 描 述 的 一 个 初始 化 假设 途 
径 中 , 先 验 知识 是 通过 先前 对 相关 任务 学 习 到 的 神经 网 络 来 提供 的 。 训 练 贝 叶 斯 网 的 值 的 方 
法 ( 见 6.11 节 ) 也 可 被 看 作 是 用 先 验 知识 来 初始 化 假设 。 这 里 先 验 知识 对 应 于 一 组 条 件 独立 
性 假定 , 它 确定 了 贝 叶 斯 网 的 图 结构 ,然后 其 条 忻 概 率 表 从 训练 数据 中 归纳 得 到 。 


12.4 使 用 先 验 知识 改变 搜索 目标 


上 面 的 途径 由 一 个 完美 拟 合 领域 理论 的 假设 开始 梯度 下 降 搜索 ,然后 在 需要 时 改变 此 假 
设 以 最 大 程度 地 拟 合 训练 数据 。 使 用 先 验 知 识 的 另 一 方法 是 将 它 合并 到 梯度 下 降 中 需 最 小 化 
的 误差 判 据 , 这 样 网 络 需 要 拟 合 的 是 训练 数据 和 领域 理论 的 组 合 函 数 。 确 切 地 讲 , 我 们 考虑 的 
先 验 知识 的 形式 是 目标 函数 的 某 种 已 知 的 导出 式 。 一 些 类 型 的 先 验 知识 可 以 很 自然 地 用 下 形 
式 表 示 。 例 如 ,在 训练 一 个 神经 网 络 以 识别 手写 字符 时 ,我 们 可 以 指定 目标 函数 的 某 种 导数 ， 
以 表示 这 种 先 验 知识 ; “字符 的 确认 独立 于 图 像 的 微小 平移 和 旋转 。 

TEREK) TANGENYPRopP 算法 训练 神经 网 络 , 使 其 同时 拟 合 训练 值 和 训练 叶 数 。12.4.4 
节 说 明了 怎样 用 类 似 于 12.3 节 使 用 的 Cup 例子 中 的 方法 从 领域 理论 中 获得 这 些 训 练 导 数 。 
确切 地 讲 , 它 讨论 了 EBNN 算法 怎样 构造 单独 样 例 的 解释 , 以 抽取 出 训练 导数 来 供 Tan. 
CENTPROP 使 用 。TANCENTPRop 和 EBNN 已 在 多 个 领域 中 显示 出 优 于 纯 归 纳 方法 的 性 能 , 包 
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括 字 符 和 物体 识别 以 及 机 器 人 感知 和 控制 任务 中 。 
12.4.1 TancentProp 算法 


TANGENTPROP (Simard et al. 1992) 接 受 的 领域 知识 被 表示 为 对 应 于 其 输 人 变换 的 目标 函 
数 的 导数 。 考 虑 一 个 学 习 任务 ,包含 一 个 实例 空间 和 目标 函数 Ff。 至 此 我 们 所 作 的 假定 中 
每 个 训练 样 例 形 式 为 (x;, f(xi)》, 它 描述 了 某 实 例 x; 和 其 训练 值 F( x;)。TANCENTPROP 算法 
还 假定 提供 了 目标 函数 的 不 同 的 训练 导数 (training derivative)。 例 如 , 如 果 每 个 实例 x; 描述 


为 一 个 实数 ,那么 每 个 训练 样 例 形式 可 能 为 (xi,7( zi),c 下 | y, aaO) 表示 目标 


PARTE x = x; EX x 的 导数 。 

为 了 从 直觉 上 理解 在 学 习 中 不 仅 提 供 训练 值 也 提供 训练 导数 的 好 处 ,考虑 一 个 简单 的 任 
务 , 如 图 12-5 所 示 。 最 左边 的 图 形 显示 待 学 习 的 目标 函数 f, 它 基于 所 显示 的 3 个 训练 样 例 
(eis fr) (a2, Fr DAK x3, fix) 有 了 这 3 个 样 例 , 反 向 传播 算法 可 得 到 一 个 平滑 
尊 数 假设 ,如 中 间 图 显示 的 函数 g。 最 右边 的 图 显示 了 提供 训练 导数 (或 斜率 ) 作 为 每 个 训练 


样 例 的 附加 信息 (如 《x1, f(z!) 全” 》) 的 效果 。 通 过 拟 合 训练 值 /( i) 同 时 拟 合 这 些 导 





EL) | ,学 习 器 可 以 更 好 地 从 称 蓝 训练 数据 中 正确 泛 化 。 概 括 地 说 ,包含 训练 导数 的 效 


果 是 为 了 克服 反 向 传播 中 的 语法 归纳 偏 辕 ( 它 偏好 各 点 间 的 平滑 插值 ), 将 其 替换 为 所 希望 的 
导数 的 显 式 输 和 信息。 结果 假设 h 总 示 在 最 右边 的 图 中 , 它 提供 了 对 真实 目标 函数 / 的 更 精 
确 估计 。 





= 


m1 | 3 I 
令 了 为 目标 函数 , 它 的 三 个 样 例 < ri flr) >.< a2, fox) > 和 <x， 所 x9) > 已 知 。 基 于 这 些 点 ,学 习 器 可 
能 生成 假设 go DRESSED ,学 习 器 可 以 证 化 到 更 精确 的 天 
图 12-5 Fl TancenrPror WAAGA 


在 上 述 例 子 中 ,我 们 只 考虑 了 简单 类 型 的 目标 函数 导数 。 实 际 上 , TancentPror 可 接受 
对 应 于 输入 * 的 各 种 变换 的 训练 导数 。 例 如 , 考 虚 学 习 识 别 手 写字 符 的 任务 。 确 切 地 讲 , 假 
定 输入 x 对 应 于 包含 单个 手写 字符 的 图 像 ,而 任务 是 正确 分 类 此 字符 。 在 此 任务 中 ,我 们 可 
能 希望 告诉 学 习 器 “目标 阻 数 对 于 图 像 中 字符 的 微小 旋转 不 受 影 响 ”。 为 输入 此 先 验 知识 给 学 
习 髓 ,我 们 首先 定义 一 个 变换 s(x，x), 它 把 图 像 x 旋转 a 度 。 现 在 我 们 可 把 旋转 不 变性 的 断 
言 表示 为 :对 每 个 训练 实例 x; ,目标 函数 对 应 此 变换 的 导数 为 0( 即 旋转 输 人 图 像 不 改变 目标 
函数 的 值 )。 换 言 之 ,我 们 可 对 每 个 训练 实例 x; 断言 下 面 的 训练 导数 : 

a f(sa,x;)) 
a = 0 
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Rh ABR, sf(a,sxi) 为 应 用 此 变换 * 到 图 像 x, 得 到 的 图 像 。 

这 样 的 训练 导数 在 TANGENTPROP 中 怎样 被 用 于 约束 神经 阅 络 的 权 值 ? 在 TANGENTPROP 
中 这 些 训练 导数 被 合并 到 梯度 下 降 中 需 最 小 化 的 误差 函数 中 ,回忆 第 4 章 中 反 向 传播 算法 执 
行 梯度 下 降 试图 司 误 差 平 方 和 最 小 化 : 

KE 三 23 (f(x) = fx) 

其 中 ,xi 代表 第 i 个 训练 实例 ,了 代表 真实 目标 函数 ,而 f 代表 学 习 到 的 神经 网 络 表 示 的 
KM, 

在 TancentProe # , RR we PR SATS SRS aes se A 
实际 导数 f CBE. AO TT , TancentProp 可 接受 多 个 变换 { 例 如 ,我 们 希望 断言 旋 
转 不 变性 ,局 时 断言 字符 识别 中 的 平移 不 变性 ) ,每 个 变换 形式 必须 为 w(a，x ) ,其 中 a 为 连 
SER, s; 可 微 ,而 且 5(0,xzj= x{ 例 如 ,对 于 0 度 的 旋转 , 梢 数 即 为 恒 等 函 数 )。 对 每 个 这 
样 的 变换 s,(a，x),TANGENTPRoP 考虑 指定 的 训练 导数 和 学 习 到 的 神经 网 络 的 实际 导数 间 的 
误差 平 方 。 修 改 后 的 误差 函数 为 : 

er 
E = DG) - flay + ad — -* a ae a (12.1) 

其 中 ,wu 为 用 户 提 供 的 常量 ,以 确定 拟 合 训练 数据 和 氢 合 训练 导数 之 间 的 相对 重要 性 。 注 
意 EE 定义 中 的 第 一 项 为 原来 的 训练 数据 间 和 网 络 之 问 的 误 荆 平方 ,而 第 二 项 为 训练 导数 同 网 络 
之 间 的 误差 平方 。 

Simard et 吉 ,〔〈1992) 给 出 了 使 此 扩展 的 误差 函数 最 小 化 的 梯度 下 降 规 则 。 它 可 由 类 似 于 
第 4 章 中 反问 传播 规则 中 的 方法 进行 推导 。 


12.4.2 举例 


Simard et al. (1992) EET TancentPror 的 泛 化 糖度 同 纯 归 纳 反 向 传播 之 间 的 比较 结果 , 针 
对 的 问题 为 手写 字符 识别 。 更 确切 地 讲 ,这 里 的 任务 是 为 单个 数字 0 到 9 的 蜀 像 做 标注 。 在 一 
个 实验 中 ,TANGENTPROP 和 反 向 传播 都 用 不 同 大 小 的 训练 集合 进行 训练 ,然后 基于 它们 在 独立 的 
160 个 样 例 的 测试 集合 上 评 全 性能。 给 予 TancentProp 的 先 验 知识 为 :数字 的 分 类 不 因 图 像 的 
水 平和 垂直 平移 而 改变 ( 即 此 目标 函数 对 应 于 这 些 变换 的 导数 为 0)。 结 果 显 示 在 表 12-4 中 ,证 
明了 TANGENTPRoP 使 用 先 验 知识 的 泛 化 糖度 确实 高 于 纯 反 向 传播 算法 。 


12-4 针对 手写 数字 识别 问题 的 TANGSNTPPOP 和 应 向 传播 的 还 化 精度 


在 测试 集 工 的 错误 率 百 分 比 
训练 集合 大小 
34 48 


— 
S 

> 2 h w 
Thh 


320 
广 ，TANGENTPRoP SMASH AA EAA AFATA PERE, REEE A T Simard e al. (1992). 
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12.4.3 说 明 


概括 地 说 ,TANGENTPnop 使 用 的 先 验 知识 形式 为 目标 函数 对 应 其 输 人 变换 的 所 希望 的 导 
数 。 它 通过 使 一 个 指标 函数 最 小 化 来 结合 先 验 知 识 和 观察 到 的 训练 数据 ,这 个 指标 哆 数 同 时 
度量 了 网 络 对 应 训练 样 例 值 的 误差 { 拟 含 数据 ) 和 网 络 对 应 于 导数 的 误差 (所 全 先 验 知识 )。j 
的 值 决定 了 网 络 在 整个 误差 中 拟 合 这 两 部 分 的 程度 。 算 法 的 行为 对 p 值 敏感 , 它 是 由 设计 者 
选择 的 , 

昌 然 TancentProp 成 功 地 结合 了 先 验 知识 和 和 训练 数据 以 指导 神经 网 络 学 习 , 但 它 对 于 人 先 
验 知识 中 的 错误 健壮 性 不 强 。 当 先 验 知识 不 正确 时 , 即 输入 到 学 习 器 的 训练 导数 不 能 正确 反 
脆 真 实 目标 哆 数 的 导数 时 ,算法 将 试图 氢 合 不 正确 的 导数 ,从 而 导致 汉化 精度 不 如 完全 忽略 先 
验 知 识 使 用 纯 反 向 传播 算法 的 精度 。 如 信 我 们 预先 知道 训练 导数 中 的 钳 误 出 现 穆 度 ,我 们 可 
用 这 一 信息 选择 常量 jy, 以 确定 拟 合 训练 值 和 拟 合 训练 导数 的 相对 重要 程度 。 然 而 ,这 一 信息 
不 太 可 能 预 完 知道 。 在 下 一 节 我 们 讨论 了 EBNN BY, BORGES example-by-example 的 
基础 选择 的 值 , 以 解决 不 正确 的 先 验 知识 的 问题 。 

有 必要 比较 一 下 TANGENTPROP、KBANN 和 上 反 向 传播 执行 的 假设 空间 ( 权 值 空间 ) 的 搜索 方 
法 。TANGENTPROF 结合 先 验 知识 ,通过 改变 由 梯度 下 隆 最 小 化 的 指标 (objective) 户 数 来 影响 假设 
搜索 。 它 相当 于 改变 了 假设 空间 搜索 的 目标 ,如 图 12-6 所 示 。 如 反 向 传播 算法 一 样 (但 与 
KBANN 不 同 ) ,TANGENTPRop 开始 于 随机 小 权 值 的 初始 网 络 。 然 而 , 它 的 梯度 和 训练 法 则 产生 的 
权 值 更 新 与 反 向 传播 的 不 同 ,从 而 得 到 不 同 的 最 终 假设 。 如 图 中 所 示 , 使 TANGENTPRop 的 指标 
最 小 化 的 假设 集合 不 同 于 使 反 向 传播 的 指标 最 小 化 的 假设 集合 。 重 要 的 是 ,如 果 训 练 样 例 和 先 
验 知识 都 正确 ,并 且 目 标 钞 数 可 用 ANN 精确 表示 ,那么 满足 TancentProp 指标 的 权 向 量 集合 将 
为 满足 反 向 传播 指标 的 权 向 基 集 合 的 子 集 。 这 两 个 最 终 假 设 的 集合 的 差别 为 一 些 不 正确 的 根 
设 , 它 们 会 被 反 向 传播 考虑 ,但 会 因为 先 验 知 识 而 被 TancentProp SBR, 

Hod = ti 


TANGENTPROP 搜索 





TancenTPaop A ASAT HE ROLE, eR PPE. PRMD, TAA PRR OR S| SPE FRED 
TANCENTPROP HERRAR EA y SERE, eA FAB FET VS ae 


图 12-6 TancenTProp 中 的 假设 空间 搜索 
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EE, H A hp eR AU RAEE a E EP REE A BE a Re 
WIARA SE AE a Se OR AE SE IVS. PA, EE K 
字符 识别 任务 中 ,可 以 取 一 个 训练 图 像 ,对 其 少量 的 平移 ,然后 断言 平移 后 的 图 像 与 原来 的 样 
例 属于 同一 类 。 可 以 期 望 使 用 反 向 传播 和 这 些 综 合 的 样 例 , 得 到 相似 于 TANGENTPROP 中 使 用 
原始 样 侯 和 导数 所 得 到 的 结果 。Simard et al.(1992) 的 实验 显示 黄种 情况 下 有 近似 相等 的 泛 
化 错误 率 ,但 TANGENTPRop 能 更 有 效 地 收敛 。 有 意思 的 是 第 4 童 提 到 的 学 导 驾 驶 汽车 的 
ALVINN 系统 ,使 用 了 很 相似 的 途径 综合 附加 训练 样 例 。 它 使 用 有 关 如 何 根据 镜头 图 像 的 水 
平平 称 来 改变 驾驶 方向 的 先 验 知识 ,创建 多 个 综合 的 训练 样 例 以 扩充 每 个 观察 到 的 训练 样 例 。 


12.4.4 EBNN 算法 


EBNN(Explanation-Based neural network) 是 基于 解释 的 神经 网 络 ( 见 Mitchell & Thrun 
1993a, Thrun 1996) ,这 种 算法 用 两 种 方式 改进 了 TANGENTPROP 算法 。 首 先 , 它 不 依靠 用 户 提 
供 训练 导数 ,而 是 对 每 个 训练 样 例 自行 计算 训练 号 数 。 计 算 方 法 是 通过 用 一 套 纵 定 的 领域 理 
论 来 解释 每 个 训练 样 例 。 其 次 ,EBNN 涉及 了 如 何 确 定 学 习 过 程 中 归纳 和 分 析 部 分 相对 重要 
程 汇 的 问题 ( 即 如 何 选择 式 (12.1) 中 参数 wx 的 值 )。A 的 值 是 对 每 个 训练 样 例 独立 选择 的 , 它 
基于 一 个 启发 式 规则 ,考虑 领域 理论 能 否 精 确 预 测 特 定 样 例 的 训练 值 。 因 此 对 于 那些 能 由 领 
域 理论 正确 解释 的 训练 样 例 , 学 习 的 分 析 成 分 被 强化 ;而 对 不 能 正确 解释 的 样 例 , 分 析 成 分 被 
弱化 。 

EBNN 的 输入 包括 ;(1) 形 式 为 (x,, ft x;) 的 一 组 训练 样 例 , 不 包含 训练 导数 ;(2) 一 组 领 
域 理论 ,类似 于 基于 解释 的 学 习 ( 见 第 11 章 ) 和 KBANN 中 使 用 的 ,但 它 表 示 为 一 组 预先 训练 
过 的 神经 网 络 ,而 不 是 Horn 子 句 。EBNN HI HEARRE HIAS 了 的 新 的 神经 网 络 。 
学 习 到 的 网 络 能 够 拟 合 训练 样 例 xi f(x; 以 及 从 领域 理论 中 抽取 的 了 的 训练 导数 。 对 训 
练 样 例 (x;, F(x) 的 拟 合 构成 了 学 习 的 归纳 成 分 ,而 对 领域 理论 中 抽取 的 训练 导数 的 拟 合 构 
成 了 学 习 的 分 析 成 分 。 

为 说 明 EBNN 中 使 用 的 领域 理论 ,考虑 图 12-7。 图 的 上 重 部 分 显示 的 是 目标 晤 数 Cup 
的 EBNN 领域 理论 ,每 一 方块 表示 领域 理论 中 一 个 神经 网 络 。 注 意 在 此 例 中 , 表 12-3 的 符号 
领域 理论 中 每 个 Hon 子 句 有 一 对 应 的 网 络 。 例 如 , 标 为 Graspable 的 网 络 输 入 为 一 个 实例 措 
述 ,输出 为 反映 对 象 是 否 Craspable 的 值 (EBNN 典型 情况 下 用 0. 8 表示 真 命题 ,用 0.2 表示 
假 命题 ) 。 该 网 络 类 似 于 表 12-3 中 给 出 的 Graspable 的 Horn 子 句 。 某 些 网 络 以 其 他 网 络 的 
输出 作为 输入 {例如 ,最 右边 标 为 Cup 的 网 络 的 输入 为 Stable. Liftable Al Open Vessel 网 络 的 
输出 )。 因 此 ,组 成 领域 理论 的 这 些 网 络 可 以 链接 起 来 ,对 每 个 输入 案例 推理 出 目标 函数 ,如 
Horn 闻 句 之 间 的 链接 一 样 。 一 般 来 说 ,这 些 领 域 理 论 网 络 可 由 某 外 部 源 提供 给 学 习 髓 ,或 者 也 
可 是 同一 系统 以 前 学 习 的 结果 。EBNN 使 用 这 些 领域 理论 来 学 习 新 的 目标 函数 。 它 在 此 过 程 中 
不 改变 领域 理论 。 

EBNN 的 目的 是 学 习 一 个 措 述 月 标 昂 数 的 新 神经 网 络 。 我 们 将 此 新 网 络 称 为 目标 网 络 
(target network)。 在 图 12-7 的 例子 中 ,目标 网 络 Capurm 显 示人 在 图 的 底部 , 它 的 输入 为 任意 
的 实例 描述 ,输出 为 表示 此 对 象 是 否 为 Cup 的 值 。 

EBNN 通过 执行 前 一 节 描 述 的 TANGENTPROP 算法 来 学 习 目 标 网 络 。 回 忆 一 下 ,TAw- 
cENTPROP 训练 网 络 以 氢 合 训练 值 和 训练 导数 。EBNN 把 它 接收 到 的 输入 训练 值 《xi，, £025)? 
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传递 给 TANGENTPROP。 此 外 , EBNN 还 把 它 从 领域 理论 中 计算 出 的 导数 提供 给 Tan- 
GENTPROP。 为 理解 EBNN 是 如 和 何 计算 这 些 训练 导数 的 ,再 次 考 典 图 12-7。 图 上 方 显示 了 对 一 
特定 训练 实例 xi ,领域 理论 作出 的 目标 函数 值 预测 。EBNN 对 应 于 输入 实例 的 每 一 个 特征 计 
算 此 预测 的 导数 。 例 如 在 图 中 ,实例 x; 描述 为 几 个 特征 如 MadeO fStyrofoam = 0.2( 即 为 假 )， 
而 领域 理论 预测 为 Cup = 0.8( 即 真 )。EBNN 对 应 于 每 个 实例 特征 计算 此 预测 的 偏 导 , 得 到 
下 面 的 偏 导 集 合 : 
| Cuwp dCup __... | 
3 BottomisFlat 3 ConcavityPoints Up’ 9MadeOfStyrofoam |,. x, 

这 组 导数 是 领域 理论 预测 函数 对 输入 实例 的 梯度 。 下 标 表 示 这 些 导 数 在 x = x, 上 计算 。 
在 更 一 般 的 情况 下 ,目标 函数 有 多 个 输出 单元 ,梯度 对 每 个 输出 进行 计算 。 这 个 梯度 矩阵 被 称 
A BRAAM HEITA Jacobian), 
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目标 网 络 : Potala Fl 
Conary die tin p 
pa Farge: 
Hanra Tap 
haman Cup 
BanConcevtty 
Hasttenstle 
Light 
MadsOfCaremic 
MadeOfPaper 
Make OpStprofoans 


EE cH Se LA MEM BRA. WER R PHRASE. RA 
EAA., BPR TASES Se 
图 12-7 EBNN PUREA 
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为 理解 这 些 训练 导 数 在 帮助 学 习 日 标 网 络 时 的 重要 性 ， EE aerator 如 果 领 域 
理论 编码 的 知识 中 Expensive RIES BK BR Cup 无 关 , 那 么 从 此 解释 中 抽取 的 导数 


d Cup 的 值 为 0。 为 0 的 导数 表示 这 样 的 斯 言 ， BU AEE Ex pensive 上 的 改变 对 Cup 值 的 预 


d Expensive 


测 没 有 影响 。 另 一 方面 ,很 大 的 正 导 数 或 负 导 数 表示 断言 :此 特征 与 目标 值 非常 相关 。 因 此 ， 
从 领域 理论 解释 中 抽取 的 导数 握 供 了 区 分 相关 和 不 相关 特征 的 重要 信息 。 当 这 些 抽取 出 的 导 
数 被 提供 为 TANGENTPRos 的 训练 导数 以 学 习 有 目标 网 络 Cupiwe ,它们 提供 了 指导 泛 化 过 程 的 
有 有 者 的 偏 置 。 通 常 神经 网 络 中 的 语法 归纳 偏 置 在 这 里 被 替换 为 从 领域 理论 中 得 到 的 导数 所 产 
AE BA LE 

上 面 我 们 描述 了 领域 理论 预测 如 何 被 用 于 生成 一 组 训练 导数 。 精 确 地 讲 , 完 整 的 EBNN 
算法 如 下 :给 定 训练 样 例 和 领域 理论 ,EBNN 首先 创建 一 个 新 的 全 连接 前 馈 网 络 以 表示 此 目标 
羡 数 。 该 目标 网 络 用 随机 小 权 值 初始 化 , 像 在 反 向 传播 中 那样 。 然 后 ,EBNN 对 每 个 训练 样 例 
《zi FUxi) 确 定 相应 的 训练 导数 ,用 两 步 实现 。 第 一 步 ,用 领域 理论 来 预测 实例 x, 的 目标 函 
数值 。 令 4fxi) 代 表 此 领域 理论 对 实例 aj 的 预测 。 Haz, Als) ATR ti 的 解释 的 领域 
理论 组 合 网 络 定义 的 消 数 。 第 二 步 ,分 析 领 域 理 论 的 权 值 和 激活 状态 以 抽取 出 对 应 x; 每 个 分 
量 的 4(7x;) 的 导数 ( 即 在 x = x; 时 计算 4fx) 的 雅 可 比 行列 式 )。 抽 到 导数 的 过 程 类 似 于 反 向 
传播 算法 中 计算 8 项 (见习 题 12.5)。 最 后 ,EBNN 使 用 了 TANGENTPROP 的 一 个 微小 变型 来 
训练 目标 网 络 以 拟 合 下 面 的 误差 函数 。 








二 F 2 
B= DGD - Paar? aD - EY) 022 
其 中 : | 
| A(x) - fix) | (12.3) 


ti = l- p 
这 里 ,x; RRS: PUR A RERA r 的 领域 理论 预测 。 上 标 符 号 2 代表 向 
Bx 的 第 i 个 分 量 ( 邑 神经 网 络 的 第 ) MASI). RR 为 一 个 归 一 化 常量 , 它 的 值 是 为 
了 保证 对 所 有 i Ogu io 
虽然 这 个 公式 着 起 来 很 复杂 ,其 中 的 思想 却 很 简单 。 由 式 (12.2) 给 出 的 误差 肖 数 与 
式 (12.1) 中 由 TancentProp 最 小 化 的 误差 函数 有 相同 的 一 般 形 式 。 最 左边 的 项 是 训练 值 
f(xi) 和 有 目标 网 络 预 测 值 f( x,) 之 间 的 误差 平方 。 最 右边 的 项 稀 量 了 从 领域 理论 中 抽取 的 吝 


练 导 孝 34 (2 和 目标 网 络 的 实际 导数 "之 间 的 误差 平方 。 因 此 ,最 左边 的 项 提供 归纳 约 


束 ,假设 必须 氢 合 训练 数据 ,而 最 右边 的 项 提供 的 是 分 析 约 东 , 即 假设 必须 拟 合 从 领域 理论 中 
(s-Ca, x) 

抽取 的 训练 导数 。 注 意 在 式 (12.2) 中 的 导数 纪 只 是 式 (12. 1) 中 表达 式 Ee) y 
一 种 特殊 形式 ,其 中 将 sla, x;) 中 的 xi 替换 为 st +a,EBNN 使 用 的 精确 的 权 值 训练 法 则 由 
Thrun(1996) 描 述 。 

EBNN 中 归纳 和 分 析 学 习 部 分 的 相对 香 要 性 由 常量 a 确定 , 它 由 式 (12.3) 定 义 。pg; 的 
值 是 由 领域 理论 的 预 调 4{xi) 和 训练 值 f( *,) 的 差异 确定 的 。 学 习 的 分 析 成 分 对 于 能 被 领域 
理论 正确 预测 的 训练 样 例 其 权 值 被 加 重 , 面 对 于 不 能 正确 预测 的 样 例 权 值 碱 轻 。 这 一 加 权 局 
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发 式 规则 假定 在 训练 值 能 够 被 领域 理论 正确 预测 时 ,从 领域 理论 中 抽取 的 训练 导数 更 有 可 能 
是 正确 的 。 虽 然 可 能 构造 出 此 启发 式 规则 失败 的 情况 ,但 在 实践 中 几 个 领域 中 都 已 证 明 是 有 
效 的 (例如 , 见 Mitchell & Thrun 1993a, Thrun 1996), 


12.4.5 说 明 


概括 地 说 ,EBNN 算法 使 用 的 领域 理论 被 表示 为 一 组 预先 学 习 到 的 神经 网 络 , 然 后 领域 理 
论 与 训练 样 例 一 起 训练 其 输出 假设 (目标 网 络 }。 对 每 个 训练 样 例 ,EBNN 使 用 其 领域 理论 来 
解释 七 ,然后 从 此 解释 中 抽取 训练 导数 。 对 实例 的 每 个 属性 计算 出 一 个 训练 导数 ,以 描述 按照 
领域 理论 ,目标 函数 值 是 怎样 被 属性 值 的 微小 变化 影响 的 。 这 个 训练 导数 被 提供 给 TAN- 
CENTPROP 的 一 个 变 体 ,其 中 使 目标 网 络 拟 合 这 些 导数 和 训练 样 例 值 。 拟 合 导数 限制 了 学 习 到 
网 络 必须 拟 会 领域 理论 给 出 的 依赖 关系 ,而 拟 合 训练 值 限制 了 网 络 必 须 拟 合 观察 到 的 数据 本 
身 。 拟 合 导 数 的 权 值 jx; 是 由 每 个 训练 样 例 独 立 确 定 的 , 它 基于 领域 理论 预测 此 样 例 训练 值 的 
精确 程度 。 

在 多 个 领域 内 , EBNN 已 被 证 明 是 从 近似 领域 理论 中 学 习 的 一 种 有 效 方 法 。Thran 
(1996) 描 述 了 它 在 上 述 讨 论 的 Cup 学 习 任 务 的 变 体 土 的 应 用 ,并且 报 告 说 它 比 标准 反 向 传播 
算法 证 化 更 为 精确 ,特别 是 在 训练 数据 缺少 的 情况 下 。 例 如 ,在 经 过 30 个 样 例 训练 后 , F- 
BANN 在 办 一 测试 数据 集 上 得 到 的 均 方 根 误差 为 5.5, 而 反 向 传播 的 误差 为 12.0。 Mitchell 
& Thrun(1993a) 描 述 了 应 用 EBNN 以 学 习 控 制 模拟 的 移动 机 器 人 ,其 中 领域 理论 由 神经 网 络 
构成 ,它们 预测 了 不 赔 机 器 人 对 外 界 状态 的 动作 的 效果 。 其 中 EBNN 也 使 用 了 近似 的 预先 学 
习 的 领域 理论 ,并 获得 了 比 反 向 传播 更 好 的 性 能 。 这 里 反 向 传播 需要 约 90 个 训练 事件 才能 达 
到 EBNN 中 25 个 训练 事件 后 的 性 能 。0O'Sullivan et al. (1997) 和 Thmn(1996) 描 述 了 EBNN 
应 用 到 其 他 几 种 真实 世界 感知 和 控制 任务 ,其 中 领域 理论 由 网 络 组 成 , 它 使 用 声 纳 、 视 觉 和 激 
光 范 转 忧 感 吕 预测 了 室内 移动 机 咒 人 人 的 动作 效果 。 

EBNN 与 其 他 基于 解释 的 学 习 方 法 之 间 存 在 内 在 的 联系 ,如 第 11 章 描述 的 ProLoc- 
EBG。 它 也 基于 领域 理论 构造 解 释 (对 样 例 目标 值 的 预测 }。 在 ProLoc-EBG 中 ,解释 的 构造 
来 自 于 由 Horn 子 句 组 成 的 领域 理论 ,而 目标 假设 的 精 化 是 通过 计算 此 解释 成 立 的 最 弱 条 件 ，。 
因此 解释 中 的 相关 依赖 性 在 学 习 到 的 Hon 子 句 假设 中 反映 。EBNN 构造 了 一 个 相似 的 解 
释 , 但 它 是 基于 神经 网 络 形式 的 领域 理论 ,而 不 是 Horn 子 句 。 如 在 PaoLoc-EBG 中 ,相关 的 依 
赖 性 是 从 解释 中 抽取 的 ,而 且 被 用 于 精 化 目标 假设 。 在 EBNN 中 ,这 些 依赖 性 的 形式 为 导数 ， 
因为 在 神经 网 络 这 样 的 连续 函数 中 ,导数 是 表示 依 束 性 的 很 自然 的 方法 。 相 反 ,在 符号 解释 或 
逻辑 证 明 中 ,表示 依赖 性 的 自然 方法 是 描述 此 证 明 所 应 用 的 样 例 集 。 

第 11 章 描 述 的 符号 表示 的 基于 解释 的 方法 与 EBNN 在学 习 能 为 方面 有 几 点 不 同 。 第 一 
个 主要 不 同 在 于 EBNN 能 处 理 不 完美 的 领域 知识 , 而 PRoLoc-EBG 不 能 。 这 一 不 同 是 由 于 
EBNN 是 建立 在 拟 合 观察 训练 值 的 归纳 机 制 之 上 的 ,而 且 领域 理论 只 被 作为 学 习 到 的 假设 的 
附加 约束 。 第 二 个 重要 不 同 在 于 PRoLoc-EBG 学 习 到 爱 渐 增长 的 Horn 子 句 集 ,而 EBNN 学 
习 到 夯 定 大 小 的 神经 网 络 。 如 第 11 章 讨 论 的 ,学 习 Hom 子 句 集 的 一 个 难题 是 , 随 着 学 习 过 程 
的 进行 和 新 Hom 于 名 被 加 入 ,分 类 新 实例 的 开销 不 断 增 长 。 然 而 固定 大 小 的 神经 网 络 也 有 
相应 的 不 足 , 它 可 能 无 法 表示 足够 复杂 的 函数 ,而 增长 的 Horn 子 句 集 可 以 表示 越 来 越 复杂 的 
me, Mitchell & Thrun(1993b) 更 详细 地 讨论 了 关于 EBNN 和 符号 表示 的 基于 解释 的 学 习 
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方法 之 间 联 系 。 
12.5 使 用 先 验 知识 来 扩展 搜索 算 子 


新 面 两 节 分 析 了 先 验 知 识 在 学 习 中 的 两 种 不 同和 角色。 初始 化 学 习 器 的 假设 和 改变 指标 天 
数 以 引导 假设 室 间 上 的 搜索 。 本 节 我 们 考虑 使 用 先 验 知识 来 改变 假设 空间 搜索 的 第 三 种 方 
法 ; 即 改变 搜索 中 定义 合法 搜索 步 的 算 子 集合 。 这 一 途径 被 用 于 FOCL(Pazzani et al. 1991, 
Pazzani & Kibler 1992). ML-SMART(Bergadano & Giordanna 1990) 等 系统 。 这 里 我 们 用 
FOCL 来 说 明 这 一 途径 。 


12.5.1 FOCL 算法 


FOCL 是 第 10 章 描 述 的 纯 归 纳 的 FOIL 系统 的 一 个 扩展 。FOIL 和 FOCL 都 学 习 一 组 一 
阶 Horn 子 句 以 覆盖 观察 到 的 训练 例 。 两 个 系统 都 应 用 了 序列 覆盖 算法 来 学 习 单 个 Hom T 
人 名, 称 去 那些 被 新 Hon 子 名 儿 盖 的 正 例 ,然后 在 剩余 的 训练 样 例 上 和 章 复 这 一 过 程 。 在 两 个 系 
统 中 ,每 个 新 Horn 子 句 都 是 通过 一 般 到 特殊 搜索 创建 的 ,开始 于 最 一 般 的 Horn FARIAS 
前 件 的 子 句 )。 然 后 生成 当前 子 句 的 几 个 候选 特 化 式 ,并 选择 其 中 关于 训练 样 例 有 最 大 知县 增 
益 的 一 个 。 重 复 该 过 程 , 生 成 更 多 的 候选 特 化 式 并 选择 最 佳 的 ,直到 获得 一 个 满足 指定 性 能 的 
Horn Tf], 
FOIL 和 FOCL 之 间 的 区 别 在 于 搂 索 单个 Horn 子 句 的 一 般 到 特殊 过 程 中 候选 假设 生成 
的 方法 。 第 10 章 描 述 的 FOIL 生成 每 个 候选 特 化 式 是 通过 加 人 一 个 新 文字 到 子 句 前 件 中 得 
到 和 的 。FOCL 使 用 同样 的 方法 产生 候选 特 化 式 , 但 还 基于 领域 理论 生成 了 附加 的 特 化 式 。 
图 12-8 的 搜索 树 的 实 线 边 显示 了 在 FOIL 典型 的 搜索 中 考虑 的 一 般 到 特殊 搜索 步 。 图 12-8 
搜索 树 的 虚线 边 表 示 FOCL 中 基 子 领域 理论 考虑 的 附加 候选 特 化 式 。 
虽然 FOCL # FOIL 都 能 学 习 一 阶 Horn 子 句 ,我 们 这 时 演示 的 操作 都 只 有 简单 的 命题 
Hom 子 句 (无 变量 的 )。 再 次 考虑 图 12-3 中 的 Cup 目标 概念 .训练 样 例 和 领域 理论 。 为 描述 
FOIL 的 操作 ,我 们 必须 首先 在 出 现 于 领域 理论 和 假设 表示 中 的 两 种 文字 之 间作 一 民 分 。 妆 
一 个 文字 可 被 用 于 描述 一 个 输出 假设 时 ,我 们 称 它 是 操作 型 (operational)。 例 如 ,在 图 12-3 的 
Cup 例子 中 ,我 们 允许 输出 假设 中 只 能 引用 描述 训练 样 例 的 12 个 属性 (如 : HasHandle, Han- 
dleOnTop )o 基 子 这 12 个 属性 的 文字 被 认为 是 操作 型 的 。 相反 ,那些 只 出 现在 领域 理论 中 和 作 
为 中 间 特 征 但 不 是 实例 的 原子 属性 的 文字 ,被 认为 是 非 操 作 型 。 在 此 情况 下 非 操作 型 属性 的 
一 个 例 于 是 属性 Stable. 
在 其 一 般 到 特殊 搜索 的 每 一 点 ,FOCL 使 用 下 面 两 种 算 子 扩展 其 当前 假设 : 
1) 对 不 是 h 一 部 分 的 每 个 操作 型 文字 ,创建 的 一 个 特 化 式 ,方法 是 加 入 文字 到 前 件 
中 。 这 也 是 FOIL 中 生成 候选 后 继 的 方法 。 图 12-8 实 线 箭头 表示 了 此 种 类 型 的 特 化 。 
2) 按照 领域 理论 ,创建 一 个 操作 型 的 且 是 目标 概念 的 逻辑 充分 条 件 。 将 这 组 文字 加 入 到 
h 的 当前 前 件 中 去 。 最 后 修剪 的 前 件 , 移 去 对 于 训练 数据 不 需要 的 文字 。 图 12-8 
中 虚 稍 头 表 示 了 此 种 类 型 的 特 化 。 
上 面 第 2 种 算 子 的 详细 过 程 如 下 。FOCL 首先 选择 一 条 领域 理论 于 句 , 它 的 头 部 (前 件 ) 
匹配 目标 概念 。 如 果 有 多 个 这 样 的 子 句 ,选择 其 中 子 句 体 (后 件 ) 关 于 训练 样 例 有 最 高 信息 迪 
蔡 的 。 例 如 ,在 领域 理论 的 训练 数据 中 (参见 图 12-3) ,只 有 这 样 一 个 子 句 : 
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Cup~ Stable, Liftable, Open Vessel 

所 选 子 名 的 前 件 形 成 了 目标 概念 的 一 个 逻辑 充分 条 件 。 在 这 些 充 分 条 件 中 ,再 次 使 用 领 
域 理论 ,每 个 非 操 作 型 文字 被 昔 换 挥 ,并且 将 子 句 前 件 代 人 到 子 句 后 件 中 。 例 如 ,领域 理论 子 
Tj Stable~- BottomisFlat 被 用 于 将 操作 型 的 BottomisFlat 代 换 非 操 作 型 的 Stable。 这 个 “ 展 
FP" ( unfolding) 领 域 理论 的 过 程 持续 到 充分 条 件 被 表述 为 操作 型 文字 。 如 果 有 多 个 可 选 的 产 
生 不 同 结果 的 领域 理论 ,那么 在 展开 过 程 的 每 一 步 用 贪 焚 的 方法 选择 有 最 大 信息 增益 的 一 个 。 
读者 可 以 验证 ,在 这 个 例子 中 ,给 定数 据 和 领域 理论 ,最 终 的 操作 型 充分 条 件 为 : 

BotiomIsFiat, HasHandle, Light, HasConcavity, ConcavityPointsUp 


Cap We RotiomisF iat, 
Light, 
HasConcaviry, 
ConcavityPotatstip, [2+,0-] 

~~ HandletmTop 
|4+.6-] 





为 学 习 一 个 规划 ,FOCL A-SI ,搜索 得 渐 特 殊 的 假设 。 有 两 种 竺 子 用 于 生成 当前 假 谨 的 特 化 式 。 
一 种 是 增加 一 个 新 的 文字 [图 中 的 实 线 )。 另 一 种 算 子 是 过 过 增加 一 组 文字 特 化 此 规划 。 这 组 文字 按照 领域 再 
论 构 成 了 上 自 标 概念 的 娃 辑 充分 亲 件 (图 中 虚线 )。FOCL 在 所 有 和 这些 栈 选 式 中 基于 它们 在 数据 上 的 性 能 进行 选 
择 。 因 此 ,不 完美 的 领域 理论 只 会 在 育 证 据 支 持 理 论 时 才 会 影 啊 假设 。 该 例 基 于 前 面 KBANN 例子 相同 的 训练 
数据 和 领域 理论 

图 12-8 FOCL 中 的 假设 空间 搜索 


作为 生成 候选 特 化 式 的 最 后 一 步 , 此 充分 条 件 被 修 竟 。 对 表达 式 中 的 每 个 文字 ,除非 文字 
的 移 除 会 降低 训练 例 上 的 分 类 糖度 ,否则 它 被 移 去 。 包 含 这 一 步骤 是 为 了 从 过 度 特 化 (over- 
specialization) 的 情况 下 恢复 ,这 时 不 完美 的 领域 理论 中 包含 不 相关 的 文字 。 在 我 们 的 例子 中 ， 
上 述 的 文字 集合 匹配 两 个 正 例 和 两 个 反例 。 老 剪 ( 移 去 ) 文 字 HasHandle 会 使 性 能 改过 。 因 
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此 ,最 终 的 修剪 过 的 操作 型 充分 条 件 为 ， 
BottomlsFlat, Light, HasConcavity, ConcavityPointsU p 

这 组 文字 现在 镇 加 人 到 当前 假设 的 前 件 中 。 注 意 , 此 假设 是 图 12-8 中 虚线 箭头 显示 的 搜 
RE WER 

使 用 了 上 面 两 种 操作 后 ,一旦 当前 假设 的 候选 特 化 式 已 经 生成 ,有 最 大 信息 增益 的 候选 者 
也 就 被 选择 了 。 图 12-8 中 显示 的 例子 中 ,在 搜索 树 的 第 一 层 选 择 的 候选 者 是 由 领域 理论 生成 
的 。 搜 索 过 程 继 续 考虑 这 个 领域 理论 推举 的 前 件 的 更 进一步 的 特 化 式 ,这 样 学 习 的 归纳 成 分 
可 以 精 化 领域 理论 中 导出 的 前 件 。 在 此 例 中 ,领域 理论 先 影响 搜索 的 第 一 层 。 然 而 ,情况 并 非 
总 是 如 此 。 如 果 在 第 一 层 对 其 他 候选 有 更 强 的 经 验 化 的 支持 , 领域 理论 推举 的 文字 仍 可 能 在 
搜索 的 后 续 步 又 中 被 加 入。 概括 地 说 ,FOCL SAW PBR Hom TA): 

eto; Aa, A a, 

其 中 e 为 目标 概念 ,oi 为 初始 的 操作 型 文字 的 合 取 , 它 由 第 一 个 语法 算 子 每 次 加 人 一 个 
文字 ,o 是 基于 领域 理论 单 步 加 人 的 操作 型 文字 合 取 , 而 or 为 第 一 个 语法 算 子 每 次 加 人 一 个 
文字 的 操作 型 文字 的 合 取 。 这 三 个 文字 集合 都 可 能 为 空 。 

上 述 的 讨论 演示 了 使 用 命题 型 领域 理论 在 单个 Horn 子 句 的 一 般 到 特殊 搜索 中 创建 假设 
的 候选 特 化 式 的 计 程 。 该 算法 很 容易 被 扩展 到 一 阶 表示 中 ( 即 含 有 变量 的 表示 }。 第 10 章 详 
网 讨论 了 FOIL 中 生成 一 阶 Hon 子 名 的 算法 ,包括 上 述 第 一 个 算 子 扩展 到 一 阶 表示 的 情况 。 
为 扩展 第 二 个 算 子 以 处 理 一 阶 镇 城 理 论 ,必须 在 太 开 和 贪 域 理论 时 考虑 变量 置 模 。 这 可 以 通过 
涉及 到 表 113 回归 过 程 的 一 种 方法 完成 。 


12.5.2 说 朋 


FOCL 使 用 领域 理论 来 增加 搜索 单个 Horm 子 句 的 每 一 步 所 要 考虑 的 候选 特 化 式 数 量 。 
图 12-9 比 较 了 FOCL 执行 的 根 设 空间 搜索 以 及 纯 归 纳 的 FOL 算法 执行 的 搜索 。FOCL 中 领 
域 理论 推举 的 特 化 式 对 应 FOIL 搜索 中 的 一 个 “ 宕 ”marero) 步 ,其 中 多 个 文字 在 一 步 中 被 加 
人 。 此 过 程 可 被 看 成 是 将 一 个 可 能 以 后 补考 虑 的 假设 提升 为 立即 被 考虑 的 假设 。 如 果 领 域 理 
论 是 正确 的 ,训练 数据 会 显示 出 此 假设 相对 于 其 他 假设 的 优越 性 ,因此 它 被 选择 。 如 果 领 域 理 
论 不 正确 ,对 所 有 候选 的 经 验 化 评估 会 将 搜索 导 同 另外 一 条 路 径 。 

概括 地 说 ,FOCL 和 使 用 语法 生成 嵌 选 特 化 式 的 同时 ,还 在 搜索 中 每 一 步 使 用 了 领域 理论 豫 
动 生成 候选 特 化 式 。FOCL 算法 在 这 些 候 选中 作出 选择 主要 是 基于 它们 对 训练 数据 的 经 验 化 
支持 。 因 此 ,领域 理论 的 使 用 方式 是 使 学 习 器 偏 置 ,但 基于 候选 们 在 训练 数据 上 的 性 能 进行 最 
终 的 选择 。 由 领域 理论 引入 的 这 种 仿 置 表现 形式 为 ;优先 选择 最 相似 于 领域 理论 涵 冀 (entail) 
的 操作 型 的 逻辑 充分 条 件 的 Horn 子 句 。 此 贪 置 与 纯 归 纳 的 FOIL 程序 的 偏 置 结合 在 一 起 。 
后 面 一 个 偏锋 优先 选择 短 的 假设 。 

在 许多 不 完美 领域 理论 的 应 用 中 ,FOCL 已 显示 出 比 纯 归 纳 的 FOIL RRA SA 
精度 。 例 如 Pazzanzi & Kibler(1992) 研 究 了 学 习 “ 合 法 棋盘 状态 "概念 的 问题 。 纵 定 60 Till 
练 样 例 ,30 个 合法 的 终 盘 棋盘 状态 ,30 个 不 合法 的 。FOIL 在 一 独立 测试 样 例 集 上 得 到 86% 
的 精度 。FOCL 使 用 相同 的 60 个 训练 样 例 以 及 一 个 精度 为 76% 的 近似 领域 理论 。 结 果 得 到 
的 假设 泛 化 精度 为 94% 一 一 错误 率 比 FOIL 的 一 半 还 小 。 在 其 他 领域 也 得 到 了 类 似 的 结果 。 
例如 ,给 定 500 个 电话 网 间 题 的 训练 样 例 以 及 电话 公司 NYNEX 对 它们 的 诊断 ,FOIL 精度 为 
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FOCL 扩大 了 FOIL 中 使 用 的 搜索 算 子 桌 合 。FOIL 存 每 步 只 考虑 加 人 单个 新 文字 ,出 FOCL 还 考虑 加 人 由 领 
域 理论 导出 的 索 个 文字 
图 12-9 FOCL 中 搜索 的 假设 空间 


12.6 研究 现状 


本 章 展 示 的 方法 只 是 缩合 分 析 和 归纳 学 习 的 可 能 途径 中 的 几 个 例子 。 其 中 每 个 方法 都 被 
证 明 在 所 选 领 域 中 性 能 超出 纯 归 纳 的 学 习 方 法 ,但 没有 一 个 在 大 范围 的 问题 领域 中 被 彻底 测 


试 或 证 明 。 缚 人 台 归 纳 和 分 析 学 习 的 主题 仍 是 一 个 非常 活 趾 的 研究 领域 。 
12.7 小 结 和 朴 充 读物 
本 章 的 要 点 包括 ; 


$ 近似 的 先 验 知识 (或 领域 理论 ) 在 许多 实际 学 习 问 题 中 是 可 利用 的 。 决 策 树 和 神经 网 络 
反 向 传播 这 样 的 纯 归 纳 方法 不 能 利用 这 样 的 领域 理论 ,因此 在 数据 缺少 时 性 能 较 差 。 
Prolog-EBG 这 样 的 纯 分 析 学 习 方法 能 够 利用 这 样 的 领域 理论 ,但 在 给 定 不 完美 先 验 知 
识 时 会 产生 不 正确 的 假设 。 结 合 归纳 和 分 析 学 习 的 方法 可 以 获得 两 者 的 优点 , 减 小 样 


本 复杂 度 ,并 且 否 决 不 正确 的 先 验 知 识 。 


e@ 看 待 结 合 归纳 和 分 析 学 习 算法 的 一 种 方法 是 ,考虑 领域 理论 是 如 何 影响 假设 空间 搜索 
的 。 本 章 我 们 考查 了 几 种 方法 ,它们 使 用 不 完美 的 领域 理论 :(1) 创 建 搜索 中 的 初始 假 


设 。(2) 扩 充当 前 假设 的 搜索 算 子 集合 。(3) 改 变 搜索 目标 。 


9 使 用 领域 理论 来 初始 化 假设 的 一 个 系统 是 KBANN。 此 算法 使 用 一 变 编 码 为 命题 规则 
的 领域 理论 来 分 析 地 创建 等 价 于 领域 理论 的 神经 网 络 。 然 后 此 网 络 被 反 向 传播 算法 归 
纳 地 精 化 ,以 改进 它 在 训练 数据 上 的 性能。 结果 是 一 个 被 原始 领域 理论 侦 置 的 网 络 , 瑟 


的 权 值 基于 训练 数据 被 归纳 精 化 。 


e TaANGENTPROP 使 用 的 先 验 知 识 被 表示 为 目标 函数 所 希望 的 导数 。 在 某 些 领域 里 , 如 图 
橡 处 理 , 这 是 表示 先 验 知识 的 一 个 很 自然 的 方法 。TAwcaNTPRoP 通过 改变 指标 函数 使 
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用 这 一 知识 ,此 函数 在 搜索 假设 空间 的 梯度 下 降 中 第 最 小 化 。 
e EBNN 使 用 领域 理论 改变 人 工 神经 网 络 搜索 的 假设 空间 的 目标 。 它 使 用 的 领域 理论 由 
预先 学 习 的 神经 网 络 组 成 ,其 作用 是 实现 一 个 神经 网 络 , 以 模拟 符号 的 基于 解释 的 学 
习 。 如 在 符号 的 基于 解释 的 学 习 中 一 样 ,领域 理论 被 用 于 解释 单个 梓 例 ,获得 不 同样 例 
特征 的 相关 程度 的 信息 。 然 而 在 神经 网 络 表 示 中 ,有 关 相 关 性 的 入 县 被 表示 为 目标 郑 
数 对 应 于 实例 特征 的 导数 。 网 络 假设 的 训练 使 用 了 TancentProp 算法 的 一 个 变种 ,其 
中 被 最 小 化 的 误差 不 仅 包 含 了 网 络 输出 值 的 误差 ,还 包含 了 从 解释 中 获得 的 网 络 导数 
的 误差 。 
e FOCL 使 用 领域 理论 来 扩展 每 步 搜索 中 考虑 的 的 候选 集 。 它 使 用 表示 为 一 阶 Hom T 
名 的 近似 领域 理论 来 学 习 一 组 通 近 上 自 标 函 数 的 Horn 子 句 。FOCL 应 用 了 序列 覆盖 算 
法 ,通过 一 般 到 特殊 搜索 过 程 来 学 习 每 个 Hom 于 外。 领域 理论 被 用 于 扩大 此 搜索 中 每 
步 考 虚 的 下 一 个 更 特殊 的 候选 假设 集 。 然 后 候选 假设 基于 它 在 训练 数据 上 的 性 能 被 评 
估 。 以 这 种 方法 ,FOCL 结合 了 FOIL 的 贪 禁 的 、 一 般 到 特殊 的 搜索 策略 以 及 分 析 方 法 
中 的 规则 链 分 析 推 理 。 
@ 如 何 最 好 地 融合 先 验 知 识 到 新 观察 事物 中 的 问题 , 仍 是 机 器 学 习 中 主要 的 待 解决 问题 
之 一 。 
还 有 许多 种 算法 试图 结合 归纳 和 分 析 学 习 。 例 如 ,第 6 章 讨 论 的 学 习 贝 叶 斯 网 的 方法 提 
供 了 另 一 种 途径 。 本 章 末 尾 的 参考 文献 提供 了 进一步 阅读 的 例子 来 源 。 
习题 
12.1 考虑 学 习 一 个 目标 概念 GoodCreditRisk, 它 定义 在 某 实例 描述 之 上 ,实例 描述 包含 4 个 
属性 HasStudentLoan, HasSavingsAccount, IsStudent, OwnsCar, TT ABM 
理论 ,给 出 KBANN 创建 的 初始 网 络 ,包括 所 有 的 网 络 连接 和 权 值 。 
GoodCreditRisk«-Empolyed , Low Debt 
Employed IsStudent 
Low Debt*— HasStudentLoan , HasSavingsAccount 
12.2 KBANN 将 一 组 命题 Horn 子 句 变换 为 一 个 初始 神经 网 络 。 考 虑 一 类 n-of-m 子 句 ,这 
种 Hom 子 句 前 件 ( 先 行 词 ) 中 包含 m 个 文字 ,并 且 包含 一 关联 的 参数 nynam, Am 
个 前 件 中 至 少 n 个 满足 时 ,此 n-of-m Horn 子 句 被 认为 是 满足 的 。 例 如 , 子 句 ， 
Students LivesinDorm, Young, Studies; n=2 
如 果 3 个 前 件 中 至 少 两 个 满足 时 ,断言 此 人 为 Student. 
给 出 与 KBANN 相似 的 一 个 算法 , 它 接受 一 组 命题 型 n-of-m 子 句 并 且 能 构造 出 与 领 
域 理 论 一 致 的 神经 网 络 。 
12.3 试 将 KBANN 扩展 ,以 接受 包含 一 阶 Horn 子 句 的 领域 理论 ,而 不 只 是 命题 Horn FA 
( 即 人 允许 Hon 子 名 包含 变量 , 如 第 10 章 中 那样 )。 给 出 一 个 算法 ,构造 等 价 于 一 个 
Horn 子 句 集 的 神经 网 络 , 如 果 不 能 则 讨论 其 中 的 困难 。 
12 .4 ”此 习题 要 求 推导 出 类 似 子 TANGENTPROP 使 用 的 梯度 下 降 法 则 。 考 虑 实例 空间 X 由 实 
数 构 成 ,而 假设 空间 H 由 x 的 二 次 函数 构成 。 即 每 个 假设 形式 为 : 
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h(x) = wot wx + wx? 
(a) 推 导 一 个 梯度 下 降 法 则 , 它 最 小 化 反 向 传播 中 相同 的 判 据 :, 即 在 假设 和 训练 数据 上 
标 值 之 间 的 误差 平方 和 。 
(b) 推 导 一 个 梯度 下 降 法 则 , 它 最 小 化 TANGENTPROP 中 相同 的 判 据 。 只 考虑 一 个 变换 
sla, x) =x+e 
[2.5 EBNN SAR RE+B FAI Be RK AE A A BEY Hp Ss A APRS. 
考虑 一 个 简单 的 例子 ,其 中 解释 的 形式 为 有 个 输 人 的 单个 sigmoid 单元 。 推 导 一 个 


过 程 以 抽取 导数 2 六 | 。 ,其 中 i 为 输入 到 此 单元 的 特定 训练 实例 ,了 (4) 为 sig 


moid 单元 输出 ,并 且 x! 代表 sigmoid 单元 第 了 个 输入 。 也 可 以 使 用 记号 of RE x, 的 
第 个 分 量 。 提 示 :该 导数 与 反 向 传播 训练 法 出 中 的 导数 相似 。 

12.6 再 次 考虑 图 12-8 中 显示 的 FOCL 搜索 步 又 。 假 如 在 搜索 的 第 一 层 选 择 的 假设 改 
为 ; 

(DA Hasffandle 

描述 FOCL 生成 的 作为 此 假设 后 继 的 第 二 层 候选 假设 。 只 需要 包括 那些 由 FOCL 的 
第 二 个 搜索 算 子 生成 的 假设 , 即 用 领域 理论 生成 的 假设 。 不 要 忘记 对 充分 条 件 进行 后 
(eeu, ARSE 12-3 中 的 训练 数据 。 

12.7 本 章 讨 论 了 3 种 途径 来 使 用 先 验 知 识 影 响 假 设 空间 的 搜索 。 你 认为 如 何 集成 这 三 种 方 
法 ? 能 否 提 出 一 个 特殊 算法 , 它 集成 了 至 少 两 种 算法 以 针对 某 种 特殊 的 假设 表示 .在 
此 集成 中 有 什么 优 向 点 ? 

12.8 再 次 考虑 12.2.1 节 中 的 问题 , 即 当 数据 和 先 验 知识 都 存在 时 ,应 使 用 和 计 么 样 的 准则 在 


假设 中 进行 选择 。 给 出 你 在 这 个 问题 上 的 见解 。 
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第 13 章 增强 学 习 


增强 学 习 要 解决 的 是 这 样 的 问题 :一 个 能 够 感知 环境 的 自治 agent, 怎样 通过 学 习 选 择 能 
达到 其 目标 的 最 优 动 作 。 这 个 很 具有 普遍 性 的 问题 应 用 于 学 习 控 制 移动 机 器 人 、 在 工厂 中 学 
习 最 优 操 作 工 序 以 及 学 习 棋 类 对 弈 等 。 当 agent 在 其 环境 中 作出 每 个 动作 时 , 施 教 者 会 提供 
奖励 或 惩罚 信息 ,以 表示 结果 状态 的 正确 与 否 。 例 如 ,在 训练 agent ET RAE ERT HA 
可 在 游戏 胜利 时 给 出 正 回报 ,而 在 游戏 失败 时 给 出 负 回 报 , 其 他 时 候 为 零 回 报 。agent 的 任务 
就 是 从 这 个 非 直 搂 的 有 延迟 的 回报 中 学 习 ,以 便 后 续 的 动作 产生 最 大 的 累积 回报 。 本 童 着重 
介绍 一 个 称 为 O 学 习 的 算法 , 它 可 从 有 延迟 的 回报 中 获取 最 优 控制 策略 ,即使 agen 没有 有 
关 其 动作 会 对 环境 产生 怎样 的 效果 的 先 验 知识 。 增 强 学 习 与 动态 规划 {dynamic program- 
ming) 算 法 有 区 ,后 者 前 被 用 于 解 炭 最 优化 问题 。 


13.1 简介 


考虑 建造 一 个 可 学 习 的 机 器 人 。 该 机 器 人 (或 agent) 有 一 些 传感器 可 以 观察 其 环境 的 状 
态 (state) 并 能 做 出 一 组 动作 (action) 改 变 这 些 状态 。 例 如 ,移动 机 器 人 具有 镜头 和 声 纳 等 传 感 
器 ,并 可 以 做 出 “ 直 走 "和 “ 转 容 "等 动作 。 学 习 的 任务 是 获得 一 个 控制 策略 (policy), 以 选择 能 
达到 目的 的 行为 。 例 如 ,此 机 器 人 的 任务 是 在 其 电池 电量 转 低 时 找到 充电 器 进行 充电 。 

本 章 关心 的 就 是 :这 样 的 agent 怎样 在 其 环境 中 做 实验 并 成 功 地 学 习 到 控制 策略 。 这 里 
假定 agent 的 目标 可 被 定义 为 一 个 回报 (reward) 函 数 , 它 对 agent 从 不 同 的 状态 中 选取 不 同 的 
动作 赋予 一 个 数字 值 , 即 立 即 支付 [immediate payoff) 。 例 如 ,寻找 电池 充电 器 的 目标 可 用 这 样 
的 回报 函数 指定 :对 那些 能 够 连接 到 充电 器 的 状态 -动作 转换 赋予 正 回报 (如 , + 100), 对 其 他 
的 状态 动作 转换 赋予 零 回报 。 这 个 回报 函数 可 内 艇 在 机 器 人 中 ;或 者 只 有 外 部 施 教 者 知道 ,由 
它 对 机 器 人 的 每 个 动作 给 出 回报 值 。 机 器 人 的 任务 是 执行 一 系列 动作 ,观察 其 后 果 ,再 学 习 控 
制 策略 。 我 们 希望 的 控制 策略 是 能 够 从 任何 初始 状态 选择 恰当 的 动作 ,使 agent 随时 间 的 累 
积 获 得 的 回报 达到 最 大 。 这 个 机 器 人 学 习 问 题 的 一 般 框架 在 图 13-1 中 概要 列 出 。 

从 图 13-1 中 可 清楚 地 着 到 ,学 习 控 制 策略 以 使 累积 回报 最 大 化 这 个 问题 非常 普 议 , 它 覆 
盖 了 机 器 人 学 习 任 务 以 外 的 许多 问题 。 一 般 来 说 ,此 问题 是 一 个 通过 学 习 来 控制 序列 过 程 的 
间 题 。 例 如 ,生产 优化 问题 ,其 中 要 选择 一 系列 的 生产 动作 ,而 使 生产 出 的 货物 减 去 其 成 本 这 
到 最 大 化 。 再 如 -一些 序列 调度 问题 , 像 在 一 个 大 城市 中 选择 出 租车 运载 乘客 ,其 中 回报 函数 为 
乘客 等 待 的 时 间 和 出 租车 队 的 整体 油耗 。 一 般 来 说 ,我 们 感 兴趣 的 问题 类 型 是 :一 个 agent 需 
要 通过 学 习 和 选择 动作 来 改变 环境 状态 ,其 中 使 用 了 一 个 累积 回报 应 数 来 定义 任意 动作 序列 
的 质量 。 在 此 类 问题 中 。 我 们 考虑 几 种 特殊 的 框架 ,包括 :动作 是 否 具有 确定 性 的 输出 agent 
是 否 有 其 动作 对 环境 的 效果 的 先 验 知识 。 

在 本 书 前 面 ,我 们 已 经 接触 到 了 通过 学 习 来 控制 序列 过 程 的 问题 。 在 第 11.4 节 中 ,我 们 
讨论 了 用 基于 解释 的 方法 学 习 规则 ,以 控制 问题 求解 中 的 搜索 。 其 中 agent 的 目的 是 在 搜索 
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其 目标 状态 的 每 一 步 从 可 选 动作 中 做 出 抉择 。 本 章 讨论 的 技术 不 同 于 第 11.4 节 , 因 为 这 里 考 
虑 的 问题 中 行为 可 能 有 非 确定 性 的 输出 ,而 且 学 习 器 缺少 描述 其 行为 输出 的 领域 理论 。 在 第 
1 章 ,我们 讨论 了 在 西洋 双 陆 棋 对 穿 中 的 学 习 问 题 。 其 中 概述 的 学 习 方 法 非常 类 似 于 本 章 的 
学 习 方 法 。 实 际 上 本 章 的 增强 学 习 算 法 的 一 个 最 成 功 的 应 用 就 是 类 似 的 博弈 问题 。Tesauro 
(1995) 描 述 的 TD-GAMMoN 程序 , 它 使 用 增强 学 习 成 为 世界 级 的 西洋 双 陆 棋 选 手 。 这 个 程序 
经 过 了 150 万 个 自生 成 的 对 弈 训练 后 ,已 近似 达到 了 人 类 最 佳 选手 的 水 平 ,并且 在 国际 西洋 双 
陆 棋 联赛 中 与 顶尖 棋 手 对 弈 取得 了 良好 的 成 绩 。 





a a iT 
5540 1 
G meer 2 4. —— ~ je 
ro F} = Fo 


目标 : 学 习 选 择 动 作 司 下 式 最 大 化 
ratte tl +, 其 中 DY I 


此 agent 生存 的 环境 被 描述 为 基本 能 的 状态 售 合 S$。 它 可 执行 任意 的 可 能 动作 集合 4 。 每 次 在 某 状 态 ;, FH 
行 一 动作 a, I agent 会 收 到 一 个 实 值 回报 r,, 它 表示 此 状态 - 动作 转换 的 立即 值 。 如 此 产生 了 一 又 列 的 状态 
5 动作 a 和 立即 回报 x; 的 集合 ,如 图 所 东 。Agent 的 尾 务 是 学 习 一 个 控制 策 柳 r: SSA, ERR EER A 
的 期 望 信 最 大 化 ,其 中 后 面 的 回报 入 随 着 邮 们 的 延 退 指数 芽 小 


图 13- 一 个 与 环境 交互 的 agent 


学 习 控 制 策略 以 选择 动作 的 问题 在 某 种 程度 上 上 类似 于 其 他 章 讨论 过 的 基数 通 近 问题 。 这 
里 待 学 习 的 目标 函数 是 控制 策略 x : S-~4 。 它 在 给 定 当前 状态 S 集合 中 的 时 ,从 集合 4 中 
输出 一 个 合适 的 动作 a。 然 而 ,增强 学 习 问 题 与 其 他 的 函数 通 近 问题 有 几 个 重要 不 同 : 
延迟 回报 (delayed reward) agent 的 任务 是 学 习 一 个 目标 函数 x。 它 把 当前 状态 s 映 
HARRE a = r(s)。 在 前 面 章节 中 ,我 们 总 是 假定 在 学 习 x 这 样 的 目标 函数 时 ,每 
个 训练 样 例 是 序 偶 的 形式 (s，x(s))。 然 而 在 增强 学 习 中 ,训练 信息 不 能 以 这 种 形式 得 
到 。 相 反 , 施 教 者 只 在 agent 执行 其 序列 动作 时 提供 一 个 序列 立即 回报 值 ,因此 agent 
而 临 一 个 时 间 导 用 分 本 (temporal credit assignment ) 的 问题 :确定 最 终 回 报 的 生成 应 归 
功 于 其 序列 中 哪 一 个 动作 。 
o HE k (exploration) 在 增强 学 习 中 ,agent 通过 其 选择 的 动作 序列 影响 训练 样 例 的 分 
布 。 这 产生 了 一 个 问题 : 哪 种 实验 策略 可 产生 最 有 效 的 学 习 。 学 习 器 面临 的 是 一 个 权 
衡 过 程 :是 选择 探索 未 知 的 状态 和 动作 (收集 新 信息 ), 还 是 选择 利用 它 已 经 学 习 过 ,会 
产生 高 回报 的 状态 和 动作 (使 累积 回报 最 大 化 )。 
© 部 分 可 观察 状态 (partially observable states) ”虽然 为 了 方便 起 见 ,可 以 假定 agent 传 感 
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器 在 每 一 步 可 感知 到 环境 的 全 部 状态 ,但 在 实 奈 的 情况 下 传感器 只 能 提供 部 分 信息 。 
例如 : 带 有 前 向 镜头 的 机 顺 人 不 能 看 到 它 后 面 的 情况 。 在 此 情况 下 可 能 需要 结合 考虑 
其 以 前 的 观察 以 及 当前 的 传感器 数据 以 选择 动作 ,而 最 佳 的 策略 有 可 能 是 选择 特定 的 
动作 以 改进 环境 可 观察 性 。 

终生 学 习 (life-long learning) 不 像 分 离 的 孙 数 通 近 任务 ,机 静 人 学 习 问 题 经 常 要 求 此 
机 器 人 在 相同 的 环境 下 使 用 相同 的 传感器 学 习 多 个 相关 任务 。 怎 样 在 罕 小 的 走廊 中 行 
走 以 及 怎样 从 激光 打印 机 中 取得 打印 纸 等 。 这 使 得 有 可 能 使 用 先前 获得 的 甸 验 或 知识 
在 学 习 新 任务 时 减 小 样本 复杂 度 。 


13.2 SUES 


在 本 节 中 ,我 们 把 学 习 序 列 控制 策略 的 问题 更 精确 地 形式 化 ,可 以 选择 许多 种 形式 化 的 方 
法 。 例 如 ,可 假定 agent 的 行为 是 确定 性 或 非 确 定性 的 ;假定 agent 可 以 预测 每 一 个 行为 所 产 
生 的 状态 或 不 能 预测 ;假定 agent 是 由 外 部 专家 通过 示例 最 优 动作 序列 来 训练 的 或 必须 通过 
执行 自己 选择 的 动作 来 冲 练 。 这 里 我 们 基于 马尔 可 夫 (Markov) 据 策 过 程 定义 该 问题 的 一 般 
形式 。 这 种 问题 形式 寻 循 图 13-1 示例 的 问题 。 

在 马尔 可 夫 决 策 过 程 (Markov decision process, MDP), agent 可 感知 到 其 环境 的 不 同 状态 集 
a $, 并 且 有 它 可 执行 的 动作 集合 4 。 在 每 个 离散 时 间 步 1, agent 感知 到 当前 状态 ;, ,选择 当前 
动作 a, 并 执行 它 。 环 境 响 应 此 agent, 给 出 回报 n= r(s,，a), 并 产生 一 个 后 继 状 态 s, ,1 = 8(s,， 
qj。 这 里 函数 信和 r 是 环境 的 一 部 分 ,agent 并 不 知道 。 TE MDP H, RR Sls, aD ris a) 
只 依 翰 于 当前 状态 和 动作 ,而 不 依赖 于 以 前 的 状态 和 动作 。 本 章 中 我 们 只 考虑 $ 和 4 为 有 限 的 
和 情形。 一般 来 说 ,5 和 r FASE EER BRITE TA EERIE. 

agent 的 任务 是 学 习 一 个 策略 x:S 一 4 , 它 基于 当前 观察 到 的 状态 s 选择 下 一 步 动作 a, 
BD x(s,) = ga。 如 何 精确 指定 此 agent 要 学 习 的 策略 x 呢 ? 一 个 明显 的 方法 是 要 求 此 策略 对 
机 器 人 产生 最 大 的 景 积 回报 。 为 精确 地 表述 这 个 要 求 ,我 们 定义 :通过 遵循 一 个 任意 策略 r 
从 任意 初始 状态 s, 获得 的 累积 值 VCs): 


2 
TS) a ry + YP 41 + Y Fig? + E 


= 2 Prei 

其 中 ,回报 序列 r ;的 生成 是 通过 由 状态 s 开始 并 重复 使 用 策略 r 来 选择 上 述 的 动作 { 如 ， 

a; 一 (S,)5 G41 = (5, 41)5F)o 这 里 On 7< I 为 一 常量 , 它 确 定 了 延迟 回报 与 立即 回报 的 相对 比 
例 。 确 切 地 讲 , 在 未 来 的 第 i 时 间 步 收 到 的 回报 被 因子 ” 以 指数 级 折算 。 注 意 如 果 设 置 y = 0， 
那么 只 考虑 立即 回报 。 当 y 被 设置 为 接近 1 的 值 时 ,未 来 的 回报 相对 于 立即 回报 有 更 大 的 重要 


程度 。 
由 式 (13.1) 定 义 的 量 V*(s) 常 被 称 为 由 策略 x 从 初始 状态 * 获得 的 折算 累积 回报 (dia- 


counted cumulative rewardj。 把 未 来 的 回报 相对 于 立即 回报 进行 折算 是 合理 的 ,因为 在 许多 情 
况 下 ,我们 希望 获得 更 快 的 回报 。 不 过 ,其 他 的 整体 回报 定义 也 被 研究 过 。 例 如 ;有限 洲 平 辐 


报 (finite horizon reward ELH DY), gti , 它 计算 有 限 的 步 内 回报 的 非 折算 和 。 另 一 种 
定义 方式 是 平均 回报 (average raward ) :lims .十 吕 人 .or,:。 它 考虑 的 是 agent 整个 生命 期 内 


(13.1) 
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每 时 间 步 的 平均 回报 。 本 章 只 限于 考虑 式 (13.1) 定 义 的 折算 回报 。Mahadevan(1996) 讨 论 了 
当 优 化 准则 为 平均 回报 时 的 增强 学 习 。 
现在 可 以 精确 陈述 agent HES. RITEK agent FAIA — TRR x ,使 得 对 于 所 有 
状态 s, VARK KRR A RERS (optimal policy ) ,并 用 x” KER. 
T= argmaxV"(s),(¥ s) (13.2) 


为 简化 表示 ,我 们 将 此 最 优 策略 的 值 函 数 V (HE VCs). V* (OHT agent 从 状态 
s 开始 时 可 获得 的 最 大 折算 累积 回报 , 即 从 状态 s 开始 遵循 最 优 策略 时 获得 的 折算 累积 回报 。 

为 了 说 明 这 些 概 念 ,图 13-2 的 上 方 显示 了 一 个 简单 的 格 状 世界 环境 。 此 图 中 的 6 个 方 格 
代表 agent 的 6 种 可 能 的 状态 或 位 置 。 图 中 每 个 箭头 代表 agent 可 采取 的 动作 ,从 一 个 状态 移 
动 到 另 一 个 。 与 每 个 箭头 相关 联 的 数值 表示 ,如 果 agent 执行 相应 的 状态 动作 转换 可 收 到 的 
立即 回报 r(s,a)。 注 意 , 在 这 个 特定 环境 下 ,所 有 的 状态 动作 转换 ,除了 导向 状态 G 的 以 外 ， 
都 被 定义 为 0。 为 便于 讨论 ,可 将 状态 G 看 作 是 目标 状态 ,因为 agent 可 接受 到 回报 的 惟一 方 
法 是 进入 此 状态 。 还 要 注意 在 此 环境 下 ,agent -- 量 进入 状态 G, 它 可 选 的 动作 只 能 是 留 在 该 
REP. A, RIEG AAR S$ (absorbing state). 





FEARR- tRRARRE , SMISRE-THE NSE. TPR A GEEA BRS G BERE T 
100, RERET O VOOM OCs, 9) 的 值 来 自 于 rts，a) 以 及 折算 因 于 y =0.9。 对 应 于 最 大 Q 值 移动 作 的 
一 个 最 优 策 上 略 也 显示 首 图 中 

图 13-2 说 明 O 学 习 的 基本 概念 的 一 个 简单 的 确定 性 世界 


ww ai bbt.com PO0O0O0D0D0OO0O 





Hise WRF FT 267 


我 们 已 经 定义 了 状态 ,动作 和 立即 回报 ,只 要 再 选择 折算 因子 y 的 值 ,就 可 以 确定 最 优 策略 
z 和 和 它 的 值 消 数 V* (s) 了 。 在 这 里 我 们 选择 > =0.9。 图 13-2 的 下 方 显示 了 在 此 设 定 下 的 一 
种 最 优 策 略 (还 有 其 他 的 最 优 策 略 )。 与 其 他 策略 一 样 , 该 策略 确切 地 指定 了 agent 在 任意 给 定 状 
态 下 应 选择 的 一 个 动作 。 如 所 想像 的 那样 ,该 最 优 策略 把 agent 以 最 短路 径 导 向 状态 Go 

图 13-2 的 右边 的 图 显示 每 个 状态 的 VA. 例如 : 考 虚 此 图 的 右 下 角 的 状态 。 此 状态 的 
Vv * 值 为 100, 因 为 在 此 状态 下 最 优 策略 会 选择 "向 上 "的 动作 ,从 而 得 到 立即 回报 100。 然 后 ， 
agent 会 留 在 吸收 状态 ,不 再 接 到 更 多 的 回报 。 同 样 ,中 下 方 的 状态 的 VY" 值 为 90。 这 是 因为 
最 优 策略 会 使 agent 从 这 里 向 右 移动 (得 到 为 0 的 立即 回报 ), 然 后 向 上 (生成 为 100 的 立即 回 
报 )。 这 样 ,此 状态 的 折算 回报 为 ; 

O+ y100+ y704+ 7704+... = 90 

回忆 V* 的 定义 , 它 是 在 无 限 未 来 上 的 打算 回报 和 。 在 这 个 特定 的 环境 下 ,一旦 agent 到 

达 了 吸收 状态 G, 其 无 限 未 来 将 留 在 此 状态 中 并 获得 0 回报 。 


13.3 Q#J 


一 个 agent 在 任意 的 环境 中 如 何 能 学 到 最 优 的 策略 x* ? 直接 学 习 函 数 r": SA 很 困 
难 ,因为 训练 数据 中 没有 提供 4s，a) 形 式 的 训练 样 例 。 作 为 替代 , 惟 -可 用 的 训练 信息 是 立即 
回报 序列 rC a),i=0,1,2...。 如 我 们 将 看 到 的 ,给 定 了 这 种 类 型 的 训练 信息 ,更 容 犁 的 是 
学 习 一 个 定义 在 状态 和 动作 上 的 数值 评估 函数 ,然后 以 此 评估 函数 的 形式 实现 最 优 策略 。 

Agent 应 尝试 学 习 什 么 样 的 评估 函数 ? 很 明显 的 一 个 选择 是 Y 。 只 要 当 V's) > 
V “(sz) 时 ,agent 认为 状态 s1 优 于 ss, 因 为 从 sl 中 可 得 到 较 大 的 立即 回报 。 当 然 agent 的 策 
略 要 选择 的 是 动作 而 非 状 态 。 然 而 在 合适 的 设 定 中 使 用 了 * 也 可 选择 动作 。 在 状态 * 下 的 最 
优 动 作 是 使 立即 回报 +(s,a) 加 上 立即 后 继 状 态 的 VV * 值 (被 y 折算 ) 最 大 的 动作 ao 

x (s) = argmaxl r(s,a) + yV*(8(s,a))] (13.3) 

回忆 8(s ,ea) 代 表 应 用 动作 a 到 状态 s 的 结果 状态 。 因 此 ,agent 可 通过 学 习 V* 获得 最 优 策略 
的 条 件 是 . 它 具 有 立即 回报 部 教 + 和 状态 转换 画 教 8 的 完美 知识 。 当 agent 得 知 了 外 界 环境 用 来 响 
应 动作 的 函数 + 和 3 的 完美 知识 , 它 就 可 用 式 (13.3) 来 计算 任意 状态 下 的 最 优 动作 。 

遗憾 的 是 ,只 在 agent 具有 r 和 6 完美 知识 时 ,学习 V“ 才 是 学 习 最 优 梨 略 的 有 效 方 法 。 这 要 
求 它 能 完美 预测 任意 状态 转换 的 立即 结果 ( 即 立 即 回 报 和 立即 后 续 )。 在 许多 实际 的 问题 中 , 比如 
机 器 人 控制 ,agent 以 及 它 的 程序 设计 者 都 不 可 能 预先 知道 应 用 任意 动作 到 任意 状态 的 确切 输出 。 
例 奶 ,对 于 一 个 用 手臂 铲 士 的 机 器 人 , 当 结果 状态 包含 士 块 的 状态 时 , 如 何 描述 $ 函数 ?因此 当 6 
或 + 都 未 知 时 ,学 习 Y* 是 无 助 于 选择 最 优 动作 的 ,因为 agent 不 能 用 式 (13.3) 进 行 评估 。 在 里 一 般 
的 选择 中 ,agent 应 使 用 什么 样 的 评估 函数 呢 ? 下 一 节 定 义 的 评估 函数 Q 提供 了 答案 。 


13.3.1 OEH 


评估 函数 0(s,a) 定 义 为 : 它 的 值 是 从 状态 s 开始 并 使 用 e 作为 第 一 个 动作 时 的 最 大 折 
ARAM, BAL. 8 的 值 为 从 状态 * 执行 动作 a 的 立即 回报 加 上 以 后 遵循 最 优 策 栈 的 但 


(用 y 折算 )。 
O(s,a) =r(s,a) + YYV” (6(s,a)) (13.4) 
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注意 , 0(s,a) 正 是 式 (13.3) 中 为 选择 状态 s 上 的 最 优 动 作 a 应 最 大 化 的 量 ,因此 可 将 
式 (13.,3) 重 写 为 OCs a) MBH: 
xr*{s) = argmax()(s, a) (13.5) 
重 写 该 式 为 什么 很 重要 ? 因为 它 显示 了 如 果 agent 学 习 O 函数 而 不 是 了” HR, PEA 
ey BHR r 和 8 的 知识 时 ,agent 也 可 选择 最 优 动作 。 式 (13.5) 清 楚 地 显示 出 ,agent RIE 
其 当前 的 状态 * 下 每 个 可 用 的 动作 a ,并 选择 其 中 使 0(; ,a) 最 大 化 的 动作 。 
这 一 点 开始 看 起 来 令 上 信人 惊 育 , 只 需 对 当前 的 状态 的 O 的 局 部 值 重 复 做 出 反应 ,就 可 选择 
到 全 局 最 优化 的 动作 序列 ,这 意味 着 agent 不 须 进 行 前 脆性 搜索 ,不 须 明 确 地 考虑 从 此 动作 得 
到 的 状态 ,就 可 选择 最 优 动作 。 O 学 习 的 美妙 之 处 部 分 在 于 其 评估 函数 的 定义 精确 地 拥有 此 
略 性 :当前 状态 和 动作 的 0 值 在 单个 的 数值 中 概括 了 所 有 需要 的 信息 ,以 确定 在 状态 * 下 选 
择 动作 a 时 在 将 来 会 获得 的 折算 累积 回报 。 : 
为 说 明 这 一 点 , 见 图 13-2。 其 中 在 简单 的 格子 世界 中 显示 了 每 个 状态 和 动作 的 9 值 . 
注意 每 个 状态 动作 的 转换 的 0 值 等 于 此 转换 的 r 值 加 上 结果 状态 的 V* 值 (用 y AA). iE 
要 注意 图 中 显示 的 最 优 策略 对 应 于 选择 有 最 大 的 0 值 的 动作 。 


13.3.2 一 个 学 习 OKNA 


学 习 0 函数 对 应 于 学 习 最 优 策略 。@Q 怎样 才能 被 学 习 到 呢 ? 
关键 在 于 要 找到 一 个 可 车 的 方法 ,只 在 时 间 轴 上 展开 的 立即 回报 序列 的 基础 上 人 情 计 训练 值 。 
这 可 通过 过 代 通 近 的 方法 完成 。 为 理解 怎样 完成 这 一 过 程 ,注意 O 和 六 之 间 的 密切 联系 : 
V*(s}= maxQ(s, a") 
用 它 可 重 写 式 (13.4) 为 ;: 
O(s,a) = r(s.a) + y maxQ(d(s,a),a") (13.6) 
这 个 0 BRR BAS BE TERE 0 AARE Watkins 1989)。 为 描述 此 算法 ， 
我 们 将 使 用 符号 O 来 指 代 学 习 器 对 实际 O 贤 数 的 估计 ,或 者 说 假设 。 在 此 算法 中 学 习 硬 通 
过 一 个 大 表 表 示 其 假设 6 ,其 中 对 每 个 状态 - 动作 对 有 一 表 项 。 状 态 - FER, a) RAN 
中 存储 了 Os ,ae) 的 值 , 即 学 习 器 对 实际 的 但 未 知 的 0(s,a) 值 的 当前 假设 。 此 表 可 被 万 始 
填充 为 随机 值 ( 当 然 , 如 果 认 为 是 全 0 的 初始 值 更 易于 理解 )。Agent 重复 地 观察 其 当前 的 状 
AS * ,选择 某 动作 o ,执行 此 动作 ,然后 观察 结果 回报 r = r(s,a) 以 及 新 状态 s' = 8(s,a). 然 
后 agent 遵循 每 个 这 样 的 转换 更 新 @ ls,e) 的 表 项 ,按照 以 下 的 规则 : 
O(s,a)“ r+ y maxQ(s', a") (13.7) 
注意 此 训练 法 则 使 用 agent 对 新 状态 s 的 当前 O 值 来 精 化 其 对 前 一 状态 * 的 @ts,e) 佑 
计 。 此 训练 规则 是 从 式 (13.6) 中 得 到 的 ,不 过 此 训练 值 考虑 agent 的 近似 6 ,而 式 (13.6) 应 用 
到 实际 的 0 函数。 注意 虽然 式 (13.6) 以 函数 Ns, 0)M ris, ANERE 0 ,但 agent 不 需 
知道 这 些 一 般 函 数 来 应 用 式 (13.7) 的 训练 规则 。 相 反 , 它 在 其 环境 中 执行 动作 ,并 观察 绪 采 状 
态 “和 回报 r。 这 样 , 它 可 被 看 作 是 在 * 和 a HAE LAE. 
上 述 对 于 确定 性 马尔 可 夫 决 策 过 程 的 0 学 习 算 法 在 表 13-1 中 被 更 精确 地 描述 。 使 用 此 
算法 ,agent 估计 的 0 在 极限 时 收敛 到 实际 @ 函数 ,只 要 系统 可 被 建 模 为 一 个 确定 性 马尔 可 
夫 决 策 过 程 ,回报 函数 * 有 界 ,并 且 动 作 的 选择 可 使 每 个 状态 - 动作 对 被 无 限 频 繁 的 访问 。 


ww ai bbt.com PO0O0O0D0D0OO0O 





Ph eR Se F 269 


— eee ne re a a ei 


R131 在 确定 性 回报 和 动作 假定 下 的 OF UME 


OUR 
对 每 个 ; ,a Mette Ois, a) 0 
观察 当前 状态 : 
-HEE i: 
Sige -个 动作 = FANE 
e 接收 到 立 邵 回报 r 
名 观 紧 新 状态 ” 
OU OCs, ERATARA: 
Ols,ajeort+y mar (sna) 


万 


注 ; RAT 7 SHER ERA Oey cl, 


13.3.3 举例 


为 说 明 0 学 习 算 法 的 操作 过 程 ,考虑 图 13-3 显示 的 某 个 agent 采取 的 一 个 动作 和 对 应 的 
XO 的 精 化 。 在 此 例 中 ,agent 在 其 格子 世界 中 向 右 移动 一 个 单元 格 , 并 收 到 此 转换 的 立即 回 
报 为 0。 然后 它 应 用 训练 规则 式 {13.7) 来 对 刚 执行 的 状态 - 动作 转换 精 化 其 O MAT. H 
照 训 练 规 则 ,此 转换 的 新 8 估计 为 收 到 的 回报 (0) 与 用 Y(0.9) 折 算 的 与 结果 状态 相关 联 的 最 
高 值 (100) 的 和 。 





Ot) ' right) ee wea mar O(52, a’) 
i 


+ 040.9 maxt66. 81, 100} 

+ 90 
HE San TRA RRS 5 CRM PLT O A. FIM, Ol, Gig) = 72.9, F 
srn 指 代 RAABE, SARTO o J ERD r= 0, 并 转 找到 状态 oo REECE 
于 其 对 新 状态 a 的 Ô 司 计 更 新 其 全 Cs,arow) 悄 计 。 这 里 y=0.95 


图 13-3 在 执行 单个 动作 后 对 0 的 更 新 


每 次 agent 从 一 旧 状 态 前 进 到 一 新 状态 , 0 学 习 会 从 新 状态 到 旧 状 态 向 后 传播 其 @ fh 
it. EIRY, agent 收 到 的 此 转换 的 立即 回报 被 用 于 扩大 这 些 传播 的 如 值 。 
考 虚 将 此 算法 应 用 到 格子 世界 中 ,其 回报 函数 电 示 在 图 13-2 中 ,其 中 的 回报 值 除 了 进入 
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目标 状态 的 以 外 都 为 0。 国 为 此 世界 包含 一 个 吸收 目标 状态 。 我 们 可 假定 训练 过 程 包含 一 系 
列 的 情节 {episode)。 在 每 个 情节 中 ,agent 从 菜 随 机 选择 的 状态 开始 执行 动作 直到 其 到 达 吸 收 
目标 状态 。 这 时 情节 结束 ,然后 agent 被 运输 到 一 个 随机 选择 的 新 初始 状态 ,开始 下 一 个 情 
T. : 
在 此 例 中 , 当 应 用 0 学 习 算法 时 ,8 的 值 是 如 何 演 化 的 ?因为 初始 的 8 值 都 为 0,agent 
不 会 改变 任意 Ô 表 项 ,直到 它 怡 好 到 达 目 标 状态 并 且 收 到 非 零 的 回报 。 这 会 导 殖 只 有 通 向 目 
标 状态 的 转换 的 O 值 被 精 化 。 在 下 一 个 情节 中 ,如 果 经 过 这 些 与 目标 状态 相 邻 的 状态 ,其 非 
0 的 0 值 会 导致 与 目的 相差 两 步 的 状态 中 值 的 变化 ,依次 类 推 。 给 定 足 够 数量 的 训练 情节 ， 
信息 会 从 有 非 零 回报 的 转换 向 后 传播 到 整个 状态 - 动作 空间 ,最终 得 到 一 个 9 表 。 其 中 的 0 
值 如 图 13-2 所 示 。 
在 下 一 节 ,我们 证 明了 在 一 定 和 条件 下 表 13-1 的 8 学 习 算法 会 收 仑 到 正确 的 0 RR. H 
先 , 考 虑 此 0 学 习 算 法 的 两 个 特点 ,这 两 个 特点 是 在 回报 非 代 是 所 有 O 值 初始 化 为 0 的 任意 
确定 性 的 MDP 中 都 普遍 存在 的 。 第 一 个 属性 是 ,在 上 述 条 件 下 值 在 训练 中 永远 不 会 下 降 。 
更 形式 化 地 讲 , 令 (sy,a) 表 示 训 练 过 程 的 第 n 次 循环 后 学 习 到 的 0s,a) 值 ( 即 agent 所 采 
取 的 第 ”个 状态 - 动作 转换 之 后 ) WA: 
(Y¥s,0,n)0,.1(s,a)20,(s,¢) 
第 二 个 普遍 特点 是 在 整个 训练 过 程 中 ,每 个 0 值 将 保持 在 零 和 真实 0 值 区 间 内 ， 
(Ws,a,n) 0<¢@,(s,a)<Q(s,a) 


13.3.4 rats 


# 13-1 的 算法 是 否 会 收 化 到 一 个 等 于 真实 0 函数 的 0 值 ? 在 特定 条 件 下 , 回 管 是 肯定 
的 。 首 先 ,需要 假定 系统 为 一 确定 性 的 MDP。 其 次 ,必须 假定 立即 回报 值 都 是 有 界 的 , 即 存在 
某 正常 数 :, 对 所 有 状态 s 和 动作 a,1r(s，a)1<c。 第 三 ,agent 选择 动作 的 方式 为 它 无 限 频 
每 地 访问 所 有 可 能 的 状态 - 动作 对 。 这 信条 传 意味 着 如 果 动 作 a 是 从 状态 * 出 发 的 一 个 合法 
的 动作 ,那么 随时 间 的 累计 ,agent 的 动作 序列 逐渐 达到 无 限 长 agent 必须 以 非 0 的 频率 重复 
地 从 状态 s 执行 动作 za。 注意 ,这 些 邓 件 在 某 种 程度 上 很 一 般 , 但 有 时 又 相当 严格 。 它 们 描述 
了 比 前 一 节 所 举 的 例子 中 更 一 般 的 设 定 ,因为 它们 允许 环境 有 任意 的 正 或 全 回报 ,并 且 环 境 中 
可 有 任意 数量 的 状态 -动作 转换 可 产生 非 堆 回报。 这 些 条 件 的 严格 性 在 于 它 要 求 agent AR 
频繁 的 访问 每 个 不 同 的 状态 - 动作 转换 。 这 在 非常 大 的 (甚至 是 连续 的 ) 领 域 中 是 很 强 的 假 
定 。 我 们 将 在 后 面 讨论 更 强 的 收 敏 结果 。 然 而 本 节 措 述 的 结果 将 为 理解 O 学 习 的 运行 机 制 
提供 直 钢 的 理解 。 

对 收敛 性 证 明 的 关键 思路 在 于 ,有 最 大 误差 的 表 项 Q, a) 必须 在 其 更 新 时 将 误差 按 因 
子 7 正 小 。 原 因 在 于 它 的 新 值 的 一 部 分 依赖 于 有 误差 倾向 的 0 估计, 其 余 的 部 分 依赖 于 无 误 
差 的 观察 到 的 立即 回报 ro 

定理 13.1: 确定 性 马尔 可 夫 决 策 过 程 中 的 如 学 习 的 收 敏 性 ”考虑 一 个 OC 学 习 agent, 在 一 个 

HARB Ys alris olee 的 确定 性 MDP F, O 学 习 agent 使 用 式 (13.7) 的 训练 规则 ,将 

表 闻 (sa 初始化 为 任意 有 限 值 , 并 且 使 用 折算 因子 y,0< 7Y<1。 令 ,ts,0) 代 表 在 第 n 次 更 新 

后 agent 的 假设 如 fs,a)。 如 果 每 个 状态 ~ 动作 对 都 被 无 限 颇 繁 的 访问 ,那么 对 所 有 s 和 a, 当 n 一 

的 时 Os a) MB Olsa) 
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HEAD: RAS - 动作 转 杭 无 限 频繁 发 生 ,考虑 连续 的 区 间 ,其 中 每 个 状态 - 动作 转换 至 少 发 生 一 次 。 
所 需要 证 明 的 是 ,在 Ô 表 中 所 有 表 项 上 的 最 大 误差 在 每 个 这 样 的 连续 区 亲 内 至 少 按 因 子 > 减少 。 日 。 为 器 次 更 
新 后 agent 估计 的 0 ER. S An AQ, 中 最 大 误差, 即 ， 
A, = max | Ü lsa) - Ofs,a) | 
FE oS ols. 0) ,现在 对 在 第 + 上 次 造 代 中 更 新 的 任意 表 项 Os. 2) BE BHT 
.ts:4) 的 误差 晶 为 ; 
| Qalsa) ~ Ols,a) l=lr+ ¥ max Q,(s'.a")) - {r+ y max O(a' a )) | 
= 7il max Q,(3' 2") - max Ols’,a') | 
< ymax! ,ls 0) - QC 0") | 
= FY max | O,0s7,a°) — OCs", a’) | 
| Oita) - Qisa) ie Yå, 
上 面 的 第 三 行 从 第 一 行 中 导出 ,原因 是 对 任意 两 个 函数 方 和 户 有 下 列 不 等 式 成 立 : 
| maxf (a) ~ maxf2( a) i= max | fila) -— fata) | 
从 第 二 行 到 第 四 行 的 推导 RIIAT -TAEAE ”在 其 上 执行 最 大 化 。 其 侣 理性 在 于 当 我 们 多 许 附 如 
的 变量 变化 时 ,此 最 大 值 只 可 能 更 大 或 至 少 是 相等 注意, 通过 引 人 此 变量 ,我们 获得 了 一 个 与 A。 的 定妆 匹配 
的 表达 式 。 
因此 ,对 任意 : 和 a, 更 新 后 的 在, i, ORRERA Ô, 表 中 量 大 误差 4 的 7 倍 。 在 初始 胡 中 的 最 大 
RE av 基 有 界 的 ,因为 Ôl aM OCs ARES s, a PAR. 现在 ,在 每 个 *,a 都 被 访问 过 的 第 一 个 
KAA ,此 表 中 最 大 的 误差 最 志 为 yA, Æ k RAE ,误差 最 多 为 :aoe 因为 每 个 状态 都 被 无 限 频 本 地 访 
问 .这样 的 区 间 的 数目 是 无 限 的 ,因此 当 n 一 % 时 态 , 一 0。 定 理 得 证 。 


13.3.5 实验 策略 


注意 表 13-1 的 算法 没有 指定 agent 如 何 选 择 动作 。-~ 个 明显 的 策略 是 ,对 于 在 状态 * 的 
agent, 选择 使 0(s ,a) 最 大 化 的 动作 ,从 而 利用 其 当前 近似 和 的 6G。 然而 ,使 用 此 策略 存在 风 
险 ,agent 可 能 过 度 束 缚 到 在 早期 训练 中 有 高 0 值 的 动作 ,而 不 能 够 探索 到 其 他 可 能 有 更 高 什 
的 动作 。 实 际 上 ,上 面 的 收敛 性 定理 要 求 每 个 状态 - 动作 转换 无 限 频 党 地 发生 。 显 然 , 如 果 
agent 总 选择 使 当前 G(s ,a) 最 大 的 动作 ,将 不 能 保证 无 限 频 莹 性 。 因 此 ,在 0 学 习 中 通常 使 
用 概率 的 途径 来 选择 动作 。 有 较 高 0 值 的 动作 被 赋予 较 高 的 概率 ,但 所 有 动作 的 概率 都 非 


0。 赋 了 予 这 种 概率 的 一 种 方法 是 ; 
pisa) 
PCa, | s) = ST 409) 


其 中 P(a;|s) 8 agent 在 状态 s 时 选择 动作 ci 的 概率 ,# > 0 为 一 常量 , 它 确定 此 选择 优 
先 考 虑 高 Ô 值 的 程度 。 较 大 的 大 值 会 将 较 高 的 概率 赋予 超出 平均 & 的 动作 ,致使 agent 利用 
它 所 学 习 到 的 知识 来 选择 它 认 为 会 使 回报 最 大 的 动作 。 相 反 , 较 小 的 上 值 会 使 其 他 动作 有 较 
高 的 概率 ,导致 agent 探索 那些 当前 0 值 还 不 高 的 动作 。 在 某 些 情况 下 ,k 是 随 者 送 代 次 数 而 
变化 的 。 以 使 agent 在 学 习 的 早期 可 用 探索 型 策略 ,然后 逐步 转换 到 利用 型 的 策略 。 


13.3.6 更 新 序列 


上 面 收 合 性 定理 一 个 重要 性 暗示 在 于 , Q 学 习 不 需要 用 最 优 动作 进行 训练 ,就 可 以 收 伏 
到 最 优 策略 。 实 际 上 ,只 要 每 步 的 训练 动作 完全 随机 选择 ,使 得 结果 训练 序列 无 限 频 党 的 访问 
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每 个 状态 - 动作 转换 ,就 可 以 学 习 到 0 BRCU RRR), SSW ll ae et 
例 的 序列 ,以 改进 训练 效率 而 不 危及 最 终 的 收敛 性 。 为 说 明 这 一 点 ,再 次 考虑 在 一 个 MDP 中 
有 单个 吸收 目标 状态 的 学 习 过 程 ,如 图 13-1 中 所 示 。 像 以 前 那样 ,假定 使 用 序列 化 的 情节 
(episode) 来 训练 agent。 对 每 个 情节 ,agent 被 放置 在 一 个 随机 初始 状态 ,然后 执行 动作 以 更 新 
其 台 表 ,直到 它 到 达 吸 收 状态 。 然 后 通过 将 agent 从 目标 状态 转换 到 一 个 新 的 随机 初始 状态 
开始 个 新 的 训 绑 情节。 如 前 面 指出 的 ,如 果 开 始 所 有 OO 值 的 初 冶 化 为 D, 则 在 第 -… 个 情节 
fa agent 的 © 表 中 只 有 一 个 表 项 改变 : 即 对 应 于 最 后 转换 到 目标 状态 的 表 项 。 如 果 在 第 二 个 
情节 中 agent 恰好 从 相同 的 随机 初始 状态 沿 着 相同 动作 序列 移动 , 则 另 一 表 项 变 为 非 0, 依 此 
类 推 。 如 果 重 复 地 以 相同 的 方式 运行 情节 , 非 零 O AHWR ABA. MARRS, 
每 个 情节 移动 到 一 个 新 的 状态 - 动作 转换 。 现 在 考虑 在 这 些 相同 的 状态 - 动作 转换 上 的 训 
练 ,但 对 每 个 情节 要 以 反问 的 时 序 。 即 对 每 个 考 虚 的 转换 应 用 式 (13.7) 中 相同 的 更 新 规则 ,但 
以 逆序 执行 这 些 更 新 。 这 样 ,在 第 一 个 情节 后 ,agent 会 沿 着 通 向 目标 的 路 径 对 每 个 转换 更 新 
0 估计 。 昌 然 这 全 训练 过 程 要 求 agent 仕 开 始 此 情节 训练 前 使 用 更 多 的 内 存 来 存储 整个 情 
节 , 但 它 显 然 会 在 更 少 的 循环 次 数 内 收 伍 。 

改进 收敛 速率 的 第 二 个 策略 是 存储 过 去 的 状态 - 动作 转换 ,以 及 相应 收 到 的 立即 回报 , 然 
后 周期 性 地 在 其 上 重新 训练 。 开 始 可 能 会 认为 用 相同 的 转换 重新 训练 是 做 无 用 功 。 但 注意 到 
更 新 的 0{s,a) 值 是 由 后 继 状 态 s = 8(s,a) 的 ts ,a) 值 确定 的 。 因 此 ,如 果 后 续 的 训练 改 
变 了 0Q{s,a) 值 其 中 一 个 ,在 转换 (s ,a) 上 重 训练 会 得 到 总 (s ,a) 的 不 同 值 。 一 般 地 ,我 们 希 
望 重 放 唱 的 转换 相 比 于 从 环境 中 获得 新 转换 的 程度 取 雇 于 这 商 种 操作 在 特定 问题 领域 中 相对 
的 开销 。 例 如 ,在 机 器 人 导航 动作 的 领域 ,其 动作 执行 需要 数秒 的 时 间 ,而 从 外 部 世界 收集 新 
的 状态 - 动作 转换 的 延迟 会 比 在 内 部 重 放 以 前 观察 过 的 转换 的 开销 大 若 于 数量 级 。 由 于 0 
学 习 通 常 刻 求 成 千 上 万 的 训练 循环 才 收 敛 , 这 种 差别 显得 十 分 重要 。 

注意 ,贯穿 在 上 述 讨 论 中 的 两 个 假定 是 agent 不 知道 环境 用 来 生成 后 继 状 态 s' = 8{s,a) 
的 状态 转换 函数 OCs.) ,也 不 知道 生成 回报 的 函数 r(s,a)。 如 果 它 知道 了 这 两 个 晤 数 , 可 能 
会 有 更 多 有 效 的 方法 。 例 如 ,如 果 执 行 外 部 动作 开销 很 大 ,agent 可 以 简单 好 忽略 环境 ,在 其 内 
部 模拟 环境 ,有 效 生 成 模拟 动作 并 赋 对 适当 的 模拟 回报 ,Sutton(1991) 描 述 了 Dyna 体系 结构 ， 
它 在 外 部 世界 中 执行 的 每 步 动 作 后 执行 一 定数 量 的 模拟 动作 。Moore & Atkeson( 1993) 描 述 
了 一 种 称 为 优先 级 扫除 (prioritized sweeping) 的 途径 ,选择 最 可 能 的 状态 来 更 新 下 一 个 0 ,这 
时 需要 关注 当前 状态 有 较 大 更 新 时 的 前 驱 状 态 。Peng & Williams(1994) 描 述 了 一 个 相似 的 
途径 。 从 动态 规划 领域 来 的 大 量 有 效 算法 可 被 应 用 于 函数 和 r 已 知 的 情 视 。Kaelblingy et 
引 .{1996) 调 查 了 其 中 的 几 种 算法 。 


13.4 ” 非 确定 性 回报 和 动作 


上 面 我 们 考虑 了 确定 环境 下 的 0 学 习 。 这 里 我 们 考虑 非 确 定性 情况 ,其 中 国 报 明 数 
r(s, 0) 和 动作 转换 页 数 Sf(s,e) 可 能 有 概率 的 输出 。 例 如 ,在 Tesauro(1995) 的 西洋 双 陆 棋 对 
弈 程序 中 ,输出 的 动作 具有 固有 的 概率 性 ,因为 每 次 移动 需要 指骨 子 决 定 。 类 似 的 ,在 有 阳 声 
的 传感器 和 效应 器 的 机 器 人 中 ,将 动作 和 回报 建 摸 为 非 确定 性 过 程 较为 合适 。 在 这 样 的 情况 
下 .函数 G, OM rls, dU RRR BEEF s 和 a 产生 输出 的 概率 分 布 ,然后 按 此 分 布 把 
到 随机 的 输出 。 当 这 此 概率 分 布 主要 依赖 于 s 和 a 时 ( 即 , 它 们 不 依赖 以 前 的 状态 和 动作 ) ,我 
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TTA] PRI TSA SE EES RY AR IL 
本 节 中 我 们 把 处 理 确 定 问 题 的 0 学 习 算 法 扩展 到 非 确定 性 的 对 DP。 为 达到 这 个 目的 ， 
我 们 澡 顾 在 确定 性 情 闹 下 的 算法 推导 步 又 ,在 寄 要 时 对 其 做 出 收 正 。 
在 非 确定 性 情况 下 ,我 们 必须 先 重新 叙述 学 习 器 的 目标 ,以 考虑 动作 的 输出 不 再 是 确定 性 
的 情况 。 很 明显 ,一 种 一 般 化 的 方法 是 把 一 个 策略 r AO" 重 定义 为 应 用 此 策略 时 收 到 折 
算 款 积 回报 的 期 望 值 (在 这 些 非 确定 性 输出 上 )。 
V"(s) = Ef Ds Fri] 
如 以 前 那样 ,回报 厅 列 7, ,是 从 状态 s* 开始 遵循 策略 x AE RY, TE Re 813. 1) 
的 一 般 化 形式 ,后 者 夭 盖 了 确定 性 的 情形 ， 
如 以 前 那样 ,我 们 定义 最 优 策 略 xr“ 为 所 有 状态 s PE Vs AIC xz FER 
们 把 先前 式 {13.4) 中 对 O 的 定 立 一 般 化 , 拇 一 次 运用 其 期 望 值 。 
O(s,a)= E| r€s,a) + YY €8(s,a))] 
= E[r(s,a)] + yE[ V* (8(s,a))] (13.8) 
= E[r(s,a)) + yD PCs’ 1s,a)¥*(s’) 


其 中 Pis ls, a) 为 在 状态 s 采取 动作 a 会 产生 下 一 个 状态 为 s' 的 概率 。 注 意 , 我 们 在 这 
里 已 经 使 用 了 P(s' ls, a) RRS V* (80s, a)) 的 期 望 值 ,所 用 的 形式 是 与 概率 性 的 3 的 可 能 
输出 相关 联 的 概率 。 
如 以 前 ,可 将 O 重新 表达 为 递归 的 形式 : 
O(s,a) = Elr(s,a)} + y > PCs’ | s,a) max Q(s', a’) (13.9) 


它 是 式 (13.6) 的 一 般 化 形式 。 概 插 地 说 ,我 们 把 非 确定 性 情况 下 的 Ofs,a) 简 单 地 重 定 
尽 为 在 确定 性 情况 下 定 尽 的 量 的 期 望 值 。 

我 们 已 经 把 0 的 定义 一 般 北 以 适应 非 确 定性 环境 下 的 函数 + 和 8, 现在 所 需要 的 是 一 个 
新 训练 法 则 。 前 面 对 确定 性 情形 推导 的 训练 法 则 ( 式 (13.7)) 不 能 髋 在 非 确定 性 条 忻 下 收 化。 
例如 , 考 虚 一 个 非 确 定性 回报 晴 数 r(s, a), 每 次 重复 (s, ay 转换 时 产生 不 同 的 回报 。 这 样 , 印 
使 Ô 的 表 值 被 初始 化 为 正确 的 0 函数 ,训练 规则 仍 会 不 断 的 改变 O(s, a) MA. RBM, 
此 训练 规则 不 收敛 。 此 难题 的 解决 可 和 通过 修改 训练 规则 , 令 其 使 用 当前 0 值 和 修正 的 估计 的 
一 个 衰减 的 加 权 平 均 。 用 OO, 来 代表 第 mn 次 循环 中 agent 的 估计 ,下 面 修改 后 的 训练 规则 足以 
保证 O URE o: 

0,(s,a)~ (1-0,)0,-165,a) + anir + max@,-1(s’,a") ] (13.10) 

其 中 : 


l 
on = 1 4 visits,(s,a) seed 


其 中 ,: Ma 为 第 次 循环 中 更 新 的 状态 和 动作 ,而且 visits, (s,a) SWRA - 动作 对 在 
这 次 循环 内 {包括 第 n 次 循环 ) 被 访问 的 总 次 数 。 

在 此 修正 了 的 规则 中 ,关键 思想 是 对 的 更 新 比 确定 性 情况 下 更 为 平 狠 。 注 意 ,如果 在 
$13.10 PÆ a, 设置 为 1, 可 得 到 确定 性 情形 下 的 训练 规则 。 使 用 较 小 的 a 值 ,该 项 可 以 被 
”当前 的 (5,a) 均 化 以 产生 新 的 更 新 值 。 在 式 (13. 11) 中 a, 的 值 随 n 的 增长 面 减 小 ,因此 当 
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训练 进行 时 更 新 程度 逐渐 变 小 。 在 训练 中 以 一 定 速 率 减 小 a, 可 以 达到 收 敦 到 正确 O AAH 
目的 。 上 面 给 出 的 x。 的 选择 是 满足 收敛 性 条 件 的 选择 之 一 , 它 按 照 下 面 的 定理 ( 岗 Watkins 
& Dayan 1992) 。 
定理 13.2: 对 非 确定 性 马尔 可 去 决策 过 程 的 o BTM Bt 0 AY agent 在 一 个 
有 有 界 的 回报 CY s alris, o)l e 的 非 确 定性 MDP 中 ,此 0 学 习 agent 使 用 式 (13,10) 的 训练 
规则 。 初 始 化 表 怠 (s,a) 为 任意 有 限 值 ,并 且 使 用 折算 因子 0 过 7y< 1, 邻 nli s, AARDE a 
第 ; 次 应 用 于 状态 * 的 选 代 。 如 果 每 个 状态 - 动作 对 被 无 限 频 繁 访问 ,0<e < 1 ,并且 


= 
aes = *, Deas sate < 的 
I 


那么 对 所 有 s Ma 4 nw 时 ,日 ,> OCs. a) ,概率 为 1。 


虽然 8 学 习 和 有 关 的 增强 算法 可 被 证 明 在 一 定 条 件 下 收 敏 ,在 使 用 0 学 习 的 实际 系统 
中 , 通 芝 需要 数 以 千 计 的 训练 循环 来 达到 收 化 。 例 如 ,Tesauro AY Ba FF RR Bi HET FE EAA 150 万 
个 对 弈 棋局 进行 训练 ,每 次 包括 数 十 个 状态 - 动作 转换 。 


13.5 时 间 竣 分 学 习 


Q 学 习 算 法 的 学 习 过 程 是 循环 地 减 小 对 相 邻 状态 的 0 值 的 估计 之 间 的 差异 。 在 这 个 音 
MELO 学 习 是 更 广泛 的 时 间 差 分 (temporal difference) 算 法 中 的 特例 。 时 间 差 分 学 习 算 法 学 
习 过 程 是 减 小 agent 在 不 同 的 时 间 做 出 估计 间 的 差异 。 因 为 式 (13. 10) 的 规则 减 小 了 对 基 状 
态 的 Ô 值 知 计 以 及 其 立即 后 继 的 介 估计 之 间 的 差异 ,我 们 也 可 专 设 计算 法 来 减 小 此 状态 与 
更 远 的 后 继 或 前 趋 状态 之 间 的 差异 。 

为 进一步 探讨 这 个 问题 ,回忆 一 下 8 学 习 , 它 的 训练 规则 计算 出 的 总 (sa 的 训练 值 是 
以 QCs41,94+1) 表 示 的 ,其 中 5, ,1 是 应 用 动作 a 到 状态 s, 的 结果 。 令 Csa ) 为 此 单 步 
前 瞻 计 算 的 训练 值 ; 

ON(s a) = 7, + y maxQ(s,,1,@) 
计算 O(s,,¢ WAR A—-APKES Fa RSI BR : 
QP sa) = + Mia + Y? max (s,,2, a) 
LA Re ZE— A Fon 步 的 回报 ; 
O(s, a) me fi 十 Yre +O 十 0 es as + y" max (sensa) 

Sutton( 1998) MAT RA REA EARTE, RA TDA). RRR EEA 
BEO<A <1 EHAA RRT EER PRGA OL PA: 

O*(s,,0,) = (1-A[ 06 (s,,0,) + AGO (s,,0,) + A7GMO'(s,,4,) +] 

P 的 一 个 等 价 的 递归 定义 为 ; 

Q (sa) = Tọ + rane! — A) maxQ (sı, as) + AQ {sir1s rr1) ] 

注意 ,如 果 我 们 选择 A =0, 刚 得 到 原来 的 训练 估计 Q, 它 只 考虑 Ô 估计 中 的 单 步 差 异 . 
当 增 大 时 ,此 算法 重点 逐渐 转移 到 更 远 的 前 卓 步 中 。 在 极端 情况 4 = 1 时 ,只 考虑 观察 到 的 
r,, ; 值 , 当 前 的 Ô 估计 对 其 没有 贡献 。 注 意 当 总 = 时 ,由 他 丝 出 的 训练 值 对 于 Oca! 


的 所 有 A 值 都 相同 。 
TD(A) 方 法 的 动机 是 ,在 某 些 条 件 下 ,如果 考虑 更 远 的 前 脐 , 训 练 会 更 有 效 。 人 鲍 如 , 当 
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agent 遵 循 最 优 策略 选择 动作 时 ,1 = 18) O 将 提供 对 真实 0 值 的 完美 和 估计, 不论 O 有 多 么 不 
精确 。 另 一 方面 ,如 果 动 作 序列 的 选择 是 次 优 的 ,那么 对 未 来 的 观察 mr, ;可 能 有 误导 性 。 

Peng & Williams‘ 1994) {E T HARTA RAR, Ba T P 在 一 个 问题 领域 上 
的 卓越 性 能 。Dayan (1992) 显 示 了 ,在 一 定 条 件 下 ,类 人 的 TOA ARMAS VR 
中 ,对 于 0<)1<l 的 任意 1 值 都 可 正确 收 伍 。Tesauro (1995) 在 其 TD-GAMMON 程序 西洋 双 
陆 棋 对 弈 中 使 用 了 TD(a) 方 法 。 


13.6 从 样 例 中 泛 化 


至 此 ,在 0 学 习 中 可 能 最 具有 约束 性 的 假定 是 其 目标 函数 被 表示 为 一 个 显 式 的 查找 表 ， 
每 个 不 同 输入 值 ( 即 状态 - 动作 对 ) 有 一 个 表 项 。 因 此 我 们 的 讨论 的 算法 执行 一 种 机 械 的 学 习 
方法 ,并且 不 会 尝试 通过 从 已 看 到 的 状态 - 动作 对 中 泛 化 来 估计 未 看 到 的 状态 -动作 对 的 0 
值 。 这 个 机 械 学 习 假 定 在 收 全 性 证 明 中 友 映 出 来 , 它 证 明了 只 有 每 个 可 能 的 状态 - 动作 被 无 
限 频 繁 的 访问 ,学 习 过 程 才 会 收 襄 。 在 大 的 或 无 限 的 空间 中 ,或 执行 动作 的 开销 很 大 时 ,这 显 
然 是 不 切实 际 的 和 假定。 所 以 ,更 实际 的 系统 通常 合并 其 他 章 讨 论 的 卫 数 直 近 方法 和 这 里 讨论 
的 @ 学 习 训练 规则 。 

很 容易 把 友 向 传播 这 样 的 函数 遍 近 算法 结合 到 0Q 学 习 算 法 中 ,方法 是 通过 用 神经 网 络 替 
代 查 找 表 ,并 且 把 每 个 0(s,a) 更 新 作为 训练 样 例 。 例 如 ,我 们 可 把 状态 s 和 动作 ae 编码 为 网 
络 输入 ,并 使 用 式 (13.7) 和 和 式 (13.10}) 的 训练 法 则 训练 网 络 输 出 的 自 标 值 。 另 一 种 有 了 时 在 
实践 中 更 成 功 的 方法 是 对 每 个 动作 训练 一 个 单独 的 网 络 ,使 用 状态 作为 输入 , 必 为 输出 。 还 
有 一 -种 送 常 使 用 的 方法 是 训练 一 个 网 络 , 它 以 状态 作为 输入 ,但 对 每 个 动作 输出 一 个 6 值 。 
回忆 第 1 章 中 我 们 讨论 了 在 棋盘 状态 上 使 用 线性 函数 和 LMS RAR BUA AR. 

在 实践 中 ,已 开发 出 了 许多 成 功 的 增强 学 习 系 统 , 它 们 通过 结合 这 样 的 函数 但 近 算法 来 代 
PERE, Tesauro 成 功 的 TD- Gammon 程序 使 用 了 神经 网 络 和 反 困 传播 算法 ,并 与 TD(4) 
训练 规则 相 结合 。Zhang & Dietterich 《1996) 使 用 相似 的 反 向 传播 与 TDO DKS HTF job- 
shop 调度 任务 。Crites & Bartol 1996) T — TA TE HAEA Ra AR AH A 
法 。Thron (1996) 报 告 了 一 个 基于 神经 网 络 的 OC 学 习 , 它 可 学 习 带 有 声 纳 和 摄像 头 传感器 的 
移动 机 器 人 的 基本 控制 过 程 。Mahaqevan & Connell (1991 ) 摘 述 了 一 个 基于 聚集 状态 的 0 学 
习 方法 ,应 用 于 简单 的 移动 机 器 入 控制 问题 。 

虽然 这 些 系 统 获得 了 成 功 , 但 对 于 其 他 的 任务 ,一 但 引入 了 泛 化 隆 数 通 近 器 ,增强 学 习 将 
不 能 收敛 。 这 样 的 有 问题 的 任务 由 Boyan & Moore (1995) ,Baird (1995) 和 Gordon (1995) 介 
绍 。 注 意 本 章 前 面 讨 论 的 收 伍 性 定理 只 应 用 于 Ô 表示 为 明确 的 表 形 式 时 ,为 了 看 到 困难 所 
在 ,考虑 使 用 一 个 神经 网 络 面 不 是 明确 的 表 来 表示 日 。 如 果 学 习 器 更 新 网 络 以 更 好 地 匹配 特 
定 转换 的 < s,,a, > 的 训练 0 值 ,变化 了 的 网 络 权 值 也 会 修改 其 他 的 任意 转换 的 9 估计 。 因 
为 这 些 权 值 变 化 会 增加 其 他 转换 的 O 估计 的 误差 ,原来 定理 中 的 证 明 步 骤 不 再 成 立 。 关 于 带 
有 汪 化 函数 允 近 器 的 增强 学 习 的 理论 分 析 由 Gordon (1995) 和 Tsitsiklis (1994) fF. Baird 
(1995) 提 出 了 基于 梯度 的 方法 , 它 通过 直接 最 小 化 相 邻 状 态 的 估计 中 的 差异 平方 和 来 解决 这 
一 难题 (也 被 称 为 Bellman 残留 误差 )。 


13.7 与 动态 规划 的 联系 
Ro 学习 这 样 的 增强 学 习 方法 ,与 长 期 研究 的 用 于 解决 马尔 可 夫 决 策 过 程 的 动态 规划 方 
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A BRERA, HRY TREE agent WA CAIRAR OCs, a) Al rls, a) 
的 完 卖 知识 。 因 此 , 它 主 要 解决 的 问题 是 用 最 小 的 计算 量 得 到 最 优 策 栈 ,其 中 假定 环境 可 被 完美 
地 模拟 ,不 需要 直接 的 交互 。Q 学 习 的 新 闭 之 处 在 于 它 假定 不 具有 6(s,a) 和 rr(s,a) 的 知识 , 它 
不 能 在 内 部 模拟 的 状态 空间 中 移动 ,而 必须 在 现实 世界 中 移动 并 观察 后 果 。 在 后 一 种 情况 下 ,我 
们 主要 考虑 的 是 agent 为 收 敏 到 一 个 可 接受 的 策略 必须 执行 的 真实 世界 动作 数量 ,而 不 是 花费 的 
计算 友 代 次 数 。 原 因 是 ,在 许多 实际 的 领域 中 ,比如 生产 问题 ,在 外 部 其 界 中 执行 动作 的 时 间 和 
费用 开销 比 计 算 开 销 更 值得 关注 。 在 真实 环境 中 移动 进行 学 习 并 且 观 察 其 结果 的 系统 通常 称 为 
在 线 (online) 系 统 , 而 主要 通过 模型 模拟 动作 的 学 习 被 称 为 离线 {offline) 系 统 。 

通过 考虑 Bellman 等 式 , 可 以 清楚 地 看 到 早期 的 方法 和 这 里 讨论 的 增强 学 习 问 题 之 间 的 
密切 相关 性 。Bellman 等 式 形成 了 解决 MDP 的 动态 规划 方法 的 基础 ,其 形式 如 下 ， 

(Ys S)W"(s) = Elrts,a(s)) + ¥V* (6(s, xr(s)))] 

请 注意 Bellman 等 式 和 前 而 式 (13.2) 中 定义 的 最 优 策略 之 间 的 紧密 联系 。Bellman 
(1957) 证 明了 最 优 策略 x ”满足 上 述 等 式 , 量 满足 此 等 式 的 任何 策略 r 为 最 优 策 酷 。 动 态 规 
划 方 而 的 早期 工作 包括 Bellman-Ford 最 短路 径 算法 (Bellman 1958 , Ford & Fulkerson 1962}. 
它 基 于 结 点 邻居 的 距离 ,通过 不 断 更 新 每 个 图 结 点 到 终点 的 估计 距离 来 学 习 图 中 的 路 径 。 在 
此 算法 中 ,图 的 各 边 以 及 日 标 结 点 已 知 的 假定 ,等 价 于 OCs, a) rls, a) EMME. Barto 
et al, (1995) 讨 论 了 增强 学 习 和 动态 规划 的 紧密 联系 。 


13.8 小 结 和 补充 读物 


本 章 的 要 点 包括 ， 

9 增强 学 习 解 决 自治 agent 学 习 控 制 策略 的 问题 。 它 假定 训练 信息 的 形式 为 对 应 每 个 状 
aS - SUES RG HSER iS. agent 的 目标 是 学 习 一 个 行动 策略 , 它 使 agent 从 
任意 起 始 状态 收 到 的 总 同 报 最 大 化 。 

s# 本 章 介 绍 的 增强 学 习 算法 适合 一 类 被 称 为 马尔 可 去 决策 过 程 的 问题 。 在 马尔 可 失 决 策 
过 程 中 ,应 用 任意 动作 到 任意 状态 上 的 输出 只 取决 于 此 动作 和 状态 { 与 以 前 的 动作 或 状 
TAER) 马尔 可 夫 决 策 过 程 材 阑 了 范围 很 广 的 问题 ,包括 许多 机 器 人 控制 ,工厂 自动 
化 和 调度 问题 。 

00 学习 是 增强 学 习 的 一 种 形式 ,其 中 agent SUM BARA AE LAAT oR. 
确切 地 讲 , 估 计 阔 数 OCs, 0) BEX A agent 应 用 动作 a 到 状态 上 时 可 获得 的 最 大 期 
望 折 算 积 累 回 报 。Q 学 习 的 优点 是 ,即使 在 学 习 器 不 具有 其 动作 怎样 影响 环境 的 先 验 
知识 情况 下 ,此 算法 仍 可 应 用 。 

e 可 以 证 明 , 在 一 定 假 定 下 ,如 果 学 习 器 的 假设 0(s,a) 表 示 为 一 个 查找 表 , 且 对 每 个 (s ,a) 对 
有 单独 的 表 项 ,那么 O 学 习 可 以 收 合 到 正确 的 9 图 数 。 在 确定 性 和 非 确证 性 的 MDP 下 此 
算法 都 可 收 往 。 在 实践 中 0 学 习 即 使 在 规模 适中 的 问题 中 也 党 要 数 千 次 的 训练 循环 。 

9 0 学 习 是 这 类 更 三 泛 的 称 次 时 间 差 分 算法 中 的 一 种 。 一 般 说 来 ,时 间 差 分 算法 通过 不 
断 碱 小 agent 在 不 同时 间 内 产生 的 情 计 间 的 差异 来 学 避 。 

烛 增 强 学 习 与 应用 于 马 丰 可 去 决策 过 程 的 动态 规划 有 紧密 联系 。 其 关键 差异 在 于 ,历史 
上 这 些 动态 规划 方法 假定 agent 拥有 状态 转换 函数 8(s ,a) 和 回报 函数 >(s,e) 的 知识 。 
相反 ,0 学 习 这 样 的 增强 学 习 算法 假定 学 习 器 缺少 这 些 知识 。 
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TERRI A ES LE , EA EE A) RAMA SH. (BAS 
Ph TE Re PE TAL Samuel (1959) , EBD PGE ae Bar Se YR ah a et RA A 
TRAE ACB AS AUR, A SE eT ee, JLF DBT, Bellman-Ford 的 单 目 
的 最 短路 径 算法 被 开发 出 来 (Bellman 1958, Ford & Fulkerson 1962), 它 把 到 目的 的 距离 值 从 结 点 
传播 到 它 的 邻居 结 点 。 在 最 优 控 制 方 面 的 研究 导致 了 使 用 相似 方法 来 解决 马尔 可 夫 决 策 过 程 
(Bellman 1961, Blackwell 1965)。Holland( 1986) 的 学 习 分 类 系统 的 组 桶 式 (bucket brigade) 方 法 使 
用 了 类 似 的 方法 在 延 人 返回 报 的 情况 下 传播 信用 。Barto et dl.(1983) 讨 论 一 种 时 间 信 用 分 本 的 方 
法 .导致 了 Sutton(1988) 的 论文 中 定义 了 TDA) A EHE Y E A SOM EBA STE. Dayan 
{1992) 把 这 个 结果 扩展 到 4 的 任意 值 ，Watkin(1989) 介 绍 了 用 0 学 习 在 回报 和 动作 转换 峭 数 未 
若 的 情 沈 下 获取 最 优 策 略 的 方法 。 在 这 些 方 法 上 的 收 合 性 证 明 有 几 个 变种 , 浴 了 本 章 展 示 的 收 
化 性 证 明 外 ,可 见 (Baird 1995, Bertsekas 1987, Tsitsiklis 1994, Singh & Sutton 1996)。 
增强 学 习 仍 是 一 个 活 既 的 研究 领域 。 例 如 McCallum (1995) 和 Littman 《1996) 讨 论 了 增 
强 学 习 的 太 展 ,以 适应 有 隐藏 状态 变量 破坏 马尔 可 去 假定 的 情 泡 。 许 多 当前 的 研究 致力 于 把 
这 些 方 法 升级 到 于 庞大 更 实际 的 问题 中 例如 Maclin 和 Shaylik(1996) 描 述 了 一 种 方法 ,其 中 
增强 学 习 agent 可 接受 施 教 者 的 不 完美 建议 ,和 它 是 基于 KBANN 算法 (第 12 章 } 的 一 个 扩展 。 
Lin(1992) 考 虑 了 通过 提供 建议 动作 序列 来 施 教 的 作用 。Singh(1993) 和 Lin(1993) 建 议 使 用 
层次 六 的 动作 来 升级 这 些 算 法 。Dietterich & Flann(1995) 探 索 了 基于 解释 的 方法 和 增强 学 习 
的 集成 , Mitchell & Thrun(1993) 描 述 了 应 用 EBNN 算法 (第 12 章 ) 到 0 学 习 中 。Ring(1994) 
考虑 了 agent 在 多 个 任务 中 的 持续 学 习 。 
近期 关于 增强 学 习 的 调查 由 Kaelbling et al. (1996), Barto (1992), Barto et al. (1995), 
Dean et al. C1993) 和 作出 。 
习题 
13.1 给 出 图 13-2 所 示 问 题 的 男 一 种 最 优 策略 。 
13.2 考虑 下 终 显 示 的 一 个 确定 性 格子 世界 ,其 中 含有 吸收 自 标 状态 G。 这 里 作 了 标记 的 转 
换 的 立即 回报 为 10, 而 其 他 没 做 标记 的 转换 都 为 0。 
(a) 给 出 格子 世界 中 每 个 状态 的 了" 值 。 给 出 每 个 转换 的 0{s,a) 值 。 最 后 , 写 出 一 个 
最 优 策略 ,使 用 y =0.8。 
(Cb) AREER (s.a), CE 45,a) 变 化 ,但 不 改变 最 优 策略 。 试 修改 r(s,a)， 
使 0(s,@) 变 化 ,但 不 改变 YY (5,4). 
(c) 现在 考虑 应 用 O 学 习 到 此 格子 世界 ,假定 0 值 的 表 被 初始 化 为 0。 假 定 agent 从 左下 角 
的 方 格 开始 ,然后 硕 时 针 沿 着 周边 的 格子 移动 ,直至 达到 吸收 目标 状态 ,完成 第 一 个 训练 
情节 。 试 写 出 此 情节 的 结果 导致 哪些 0 值 的 修改 ,给 出 修正 后 的 值 。 现 如 果 agent 第 二 
次 运用 同样 的 情节 ,再 次 回答 此 问题 。 同 样 在 第 三 个 情节 后 回 管 此 问题 。 
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13.3 考虑 与 一 个 随机 下 棋 的 对 家 对 弈 Tic-Tec-Toe。 确 切 地 讲 , 假 定 对 家 在 有 多 个 选择 时 以 
均匀 的 概率 选择 走 棋 ,除非 有 有 一 个 强制 性 的 走 棋 (这 时 它 采 取 显 然 正 确 和 的 步子 )， 
(a) 在 此 情况 下 ,将 学 习 最 优 的 Tic-Tac-Toe 策略 形成 一 个 0 学 习 问 题 。 在 此 非 确定 
性 马尔 可 去 决策 过 程 中 ,和 何 为 状态 .动作 以 及 回报 ? 
(b) 如 果 对 家 选择 最 优 的 走 棋 而 不 是 随机 走 棋 ,你 的 程序 能 否 性 利 ? 
13.4 在 许多 MDP 中 ,有 可 能 找到 两 个 策略 xi 和 ory, WER apent 开始 于 状态 51, 则 r 优 于 ;如 果 


agent 开始 于 另 一 状态 s2, 则 zc HEF mo BAZ, Vals) > VCs, MA V (52) > Viso 
解释 为 什么 总 存在 一 个 策略 ,能 对 于 任意 -一 个 初始 状态 s f(s BAR GREE") 
言 之 ,解释 为 什么 一 个 MDP 总 有 一 个 策略 x * tE gas) VT (sda V s) 
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附录 FSH 


以 下 为 本 书 中 使 用 的 符号 ; 


(a,b); 


IE 
H: 


Sy 


argmax f( a}: 


和 形式 的 括号 用 来 表示 区 则 ,其 中 方 播 号 表示 区 邮包 含 边 界 
É, 而 圆 括号 表示 区 间 不 包含 边界 值 。 例 如 ,(1,3j 表 示 区 闻 1< rg. 


表示 过 可 Xit ryt t+ tao 


表示 连 来 ee ae 

PHRAS., HINA FB RR BMA 中 演绎 派生 。 

表示 “ 比 …… 更 一 般 " 的 符号 。 例 如 h > ,hh 代表 局 比 h 更 一 般 ，。 
使 六 x) 最 大 的 x Hh. BR: 


argmax xé= —3 
sE 31.2, -3l 


: MERA /( x) 的 函数 。 
: 在 PAC 学 习 中 ,失败 的 概率 的 边界 。 在 人 工 神经 网 络 学 习 中 ,与 一 个 单元 的 输 


出 相关 联 的 误差 项 。 


: 某 假 设 错误 率 的 边界 (在 PAC 学 习 中 )。 
> 在 神经 网 络 等 学 习 算 法 中 的 学 习 速 率 。 

: 概率 分 布 的 均值 。 

: 概率 分 布 的 标准 差 。 

EXT hw 的 梯度 。 

; 可 能 的 目标 函数 类 。 

: 训练 数据 。 

: 实例 空间 上 的 概率 分 布 。 

: x 的 期 望 值 。 

: 一 个 权 值 为 向 量 w 的 神经 网 络 的 误差 平方 和 。 
: 离散 值 假 设 ( 或 预测 ) 的 错误 率 。 

: 假设 空间 。 

: 假设 对 于 实例 x 产生 的 预测 。 

; x 的 概率 {质量 )。 

: 事件 x 的 概率 (质量 )。 

: 5 的 概率 密度 。 

: 增强 学 习 中 的 0 AR. 

: 实数 集合 。 
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VCH): 假设 空间 H 的 Vapnik-Chervonenkis 维度 。 
VSn.p; 变型 空间 , 即 假设 空间 WPA Dp 一 致 的 假设 的 子 集 。 
wi: 在 人 工 神经 网 络 中 ,从 结 点 i 到 结 点 j 的 权 和 值 。 
X: 实例 空间 。 
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